Прекратите реагировать на сбои. Рассмотрите четыре предлагаемые шага по превращению ИТ-операций (ITOps) в проактивную систему с помощью агентов искусственного интеллекта, автоматизации и стандартизированных рабочих процессов, пишет на портале The New Stack Кристина Диас, менеджер по маркетингу продуктов PagerDuty.

Крупные сбои в работе сервисов становятся все более частыми, серьезными и требуют больше времени для устранения. Согласно данным недавнего опроса CockroachDB «The State of Resilience 2025», в среднем организация сообщает о 86 сбоях в год, что составляет 324 минуты еженедельного простоя. Более половины (55%) сталкиваются с еженедельными сбоями, а 14% сообщают о ежедневных сбоях.

Реактивного управления инцидентами уже недостаточно для решения проблемы роста числа инцидентов, поэтому ИТ-операции ITOps нуждаются в модернизации. Необходима зрелая операционная структура, которая объединит людей, процессы и технологии вокруг проактивного предотвращения и устранения неполадок.

Эта структура может оказать преобразующее воздействие. Однако достижение такого уровня операционной зрелости затруднено из-за растущей сложности ИТ-инфраструктуры, разрастания наборов инструментов и ограниченной автоматизации. Организации постоянно стремятся оптимизировать процессы и рабочие потоки, но часто не знают, с чего начать.

Вот четыре шага, которые могут предпринять команды ITOps для создания зрелой структуры, обеспечивающей проактивные и отказоустойчивые операции:

Шаг 1. Стандартизация рабочих процессов с помощью эталонных путей и шаблонов

По мере масштабирования организаций по продуктовым линейкам, регионам и клиентам поддержание согласованного подхода к управлению инцидентами становится все более сложной задачей. Отсутствие согласованности увеличивает когнитивную нагрузку и замедляет время реагирования для специалистов, поскольку сервисы создаются, развертываются и поддерживаются различными способами.

Эталонные пути решают эту проблему, предоставляя предварительно утвержденные, многократно используемые рабочие процессы, которые направляют команды ITOps от точки А к точке Б. Эти пути определяют лучшие организационные практики для таких действий, как развертывание сервисов, настройка оповещений и реагирование на инциденты. Эталонные пути также помогают обеспечить соблюдение требований безопасности, комплаенса и надежности без замедления доставки. Кроме того, они устраняют проблему фрагментации ответов в больших распределенных командах, которые могут по-разному реагировать на инцидент.

Шаг 2. Внедрение непрерывного обучения в операционную деятельность

Операционная зрелость требует культуры непрерывного обучения и использования инсайтов из операционных данных для сокращения количества повторяющихся инцидентов. Наблюдаемость обеспечивает этот цикл обучения, предоставляя надежное, сквозное представление о том, как системы ведут себя в производственной среде. Благодаря коррелированным сигналам по метрикам, журналам и трассировкам команды могут выявлять проблемы раньше, быстрее диагностировать первопричины и определять повторяющиеся закономерности вокруг инцидентов.

Именно эти сигналы делают эффективным анализ инцидентов без поиска виновных. Вооружившись данными, команды могут восстановить произошедшее, понять способствующие факторы и превратить выводы в конкретные улучшения руководств по эксплуатации, рабочих процессов, передачи информации и автоматизации. Со временем этот цикл неуклонно повышает базовую устойчивость, избавляя от многократного реагирования на одни и те же инциденты.

Шаг 3. Ускорение разрешения инцидентов с помощью ИИ и автоматизации

ИИ и автоматизация являются фундаментальными элементами зрелой структуры ITOps.

Согласно данным PagerDuty, организации, внедряющие автоматизацию, сообщают о значительном сокращении времени, затрачиваемого на задачи управления инцидентами, а также о снижении стресса и выгорания. Автоматизация может обрабатывать повторяющиеся, трудоемкие задачи, такие как ведение журналов, маршрутизация и обогащение данных, освобождая инженеров для сосредоточения на более важных задачах.

Зрелые команды также проектируют системы для непрерывной и безопасной итерации, внедряя такие меры защиты, как флаги функций для поэтапного развертывания и канареечные развертывания, которые перед полным релизом предоставляют доступ к изменениям небольшой группе пользователей, что упрощает быстрое восстановление в случае возникновения проблем.

Рабочие процессы, управляемые ИИ, дополнительно улучшают управление инцидентами, анализируя шаблоны оповещений, предлагая вероятные первопричины и поддерживая решения по сортировке. Эти возможности помогают командам быстрее диагностировать проблемы и снижают вероятность того, что локальные проблемы перерастут в крупные инциденты.

Шаг 4. Внедрение агентов ИИ в весь жизненный цикл инцидента

На заключительном этапе на арену выходят агенты ИИ.

Они выводят операционную деятельность за рамки автоматизации на основе правил, создавая системы, которые рассуждают, действуют и обучаются на протяжении всего жизненного цикла инцидента. Агенты могут действовать независимо, выявляя и сортируя проблемы, запуская переключения на резервные системы и устраняя известные шаблоны инцидентов. Они постоянно совершенствуют свое поведение на основе результатов, позволяя инженерам реагировать быстрее с меньшими ручными усилиями и усталостью от дежурства.

Агенты ИИ не заменяют существующую операционную модель. Они дополняют ее таким образом, что позволяют инженерам-людям сосредоточиться на контроле и улучшении, а не на повторяющихся задачах.

Внедрение агентов ИИ уже идет полным ходом. Исследование PagerDuty показываtт, что 75% организаций развертывают несколько агентов ИИ в рамках операционной деятельности. Практические примеры включают агентов по обеспечению надежности высоконагруженных систем (SRE), которые обучаются на основе предыдущих инцидентов, автоматически выявляют соответствующий контекст и выполняют диагностику и устранение неполадок.

Другие агенты могут расшифровывать звонки для создания сводок в реальном времени и обновлений статуса в Teams или Slack, автоматически обнаруживать и разрешать конфликты в расписании или предоставлять упреждающие рекомендации, чтобы команды ITOps могли предвидеть проблемы заранее.

Повышение операционной устойчивости и уверенности

Зрелая операционная структура уменьшает компромисс между двумя главными аспектами современных операций: скоростью и надежностью. Когда организации внедряют зрелую структуру ITOps, команды могут выпускать, тестировать и масштабировать ПО с уверенностью в том, что организация обладает устойчивостью и способностью быстро реагировать на изменения без сбоев.