Разберём признаки по четырём областям: люди, процессы, техника, документация.
1. Один «человек‑система»Если честно ответить на вопрос «кто у нас лучше всех понимает инфраструктуру», обычно называется одна‑две фамилии. Все нестандартные вопросы, изменения и критичные задачи стекаются к ним.
Признаки:- без этого человека никто не может уверенно описать, как устроены ключевые сервисы;
- он участвует почти во всех обсуждениях изменений;
- часть решений принимается «из головы», без фиксации и объяснения остальным.
Риск: зависимость бизнеса от одного человека. Болезнь, отпуск, уход в другую компанию — и вы теряете значимую часть картинки и истории изменений.
2. Инциденты тушатся, но не анализируютсяВ большинстве компаний ИТ‑команда честно закрывает инциденты. Но дальше «починили — поехали дальше» дело часто не идёт.
Признаки:- нет единого реестра инцидентов за последний год;
- нет практики разборов причин (post‑mortem), максимум — обсуждение «в рабочем порядке»;
- одни и те же типы сбоев повторяются, но системных изменений после них не происходит.
Риск: одни и те же проблемы возвращаются под разным видом, а накопленные слабые места всплывают в самый неудобный момент — при росте нагрузки, миграции, сбое оборудования.
3. Резервное копирование «как‑то есть», но никто не помнит, когда проверяли восстановлениеПочти везде есть бэкапы. Гораздо реже кто‑то регулярно проверяет, что из них реально можно восстановить.
Признаки:- никто не может сходу назвать дату последнего тестового восстановления;
- нет описанного регламента: что, как часто и куда резервируется;
- бэкапы хранятся там же, где и рабочие системы, или схема хранения сложилась исторически и не пересматривалась.
Риск: до первой попытки восстановления всё «есть». В момент ЧП выясняется, что нужных данных нет, восстановление занимает дни или невозможно, а бизнес стоит.
4. Доступы и права не подвергаются ревизииПрава доступа часто выдаются ситуационно: пришёл новый проект, подключили подрядчика, расширили роль сотрудника. Снять лишние права потом «забывают», да и некогда.
Признаки:- нет регулярной ревизии админских и повышенных прав;
- у уволенных сотрудников учётки и доступы могут жить ещё месяцами;
- есть «технические» аккаунты, про которые никто не может быстро рассказать, кто их использует и зачем.
Риск: избыточные права и «висящие» доступы — одна из самых частых реальных точек входа для инцидентов безопасности. Даже без злого умысла ошибка человека с лишними правами может дорого стоить.
5. Мониторинг видит только «упало», а не деградацию«У нас всё под мониторингом» часто означает, что кто‑то получит алёрт, когда сервис совсем перестанет отвечать.
Признаки:- мониторинг настроен на «совсем красное», но не на рост ошибок, время отклика, заполнение ресурсов;
- нет дашбордов, где видно, как инфраструктура «чувствует себя» в динамике;
- алёрты либо приходят слишком часто и их игнорируют, либо приходят только в критических ситуациях.
Риск: вы видите проблему, когда бизнес уже её чувствует. Простои и деградация производительности становятся сюрпризом, а не предсказуемым риском.
6. Нет актуальной карты инфраструктурыСхема инфраструктуры, если она существует, часто хранится в старом файле, который никто давно не обновлял.
Признаки:- при вопросе «покажите схему инфраструктуры» нужно время, чтобы её найти и «освежить»;
- часть сервисов и зависимостей держится в головах людей или переписке;
- никто не может быстро ответить, какие бизнес‑процессы завязаны на конкретный сервер или систему.
Риск: при любом серьёзном изменении (миграция, масштабирование, инцидент) команда тратит время не на решение, а на восстановление картины. Решения принимаются на неполной информации, а риски сложно объяснить руководству.
7. Документация и регламенты живут «кусочками»Регламенты, инструкции, описания сервисов и процессов часто разбросаны по вики, файлам, письмам. Часть знаний не описана вовсе.
Признаки:- нет единого места, где можно посмотреть актуальные регламенты по резервному копированию, изменениям, инцидентам;
- при приходе нового специалиста значимая часть онбординга происходит в формате «спроси у Пети»;
- изменения в инфраструктуре не сопровождаются обновлением документации.
Риск: качество работы сильно зависит от конкретных людей. При росте нагрузки или изменениях стабильность падает, а предсказуемости и управляемости не становится.