AIOps (Artificial Intelligence for IT Operations, искусственный интеллект для управления ИТ-операциями) — новое слово в методиках и практиках эффективного управления гибридными ИТ-инфраструктурами. Старший менеджер по маркетингу продуктов New Relic Аннет Шеппард рассказывает на портале Information Age, как правильно подступиться к AIOps, не обладая багажом технической экспертизы в этой сфере.

Проблемы с инфраструктурой и сетью необходимо устранять молниеносно: в идеале до того, как конечный пользователь или заказчик о них узнает. Ускоренная цифровизация многих сфер экономики и общества придает управлению инцидентами дополнительную актуальность. Современные приложения лучше реагируют на потребности клиентов, но расплатой за это становится быстрое развертывание обновлений — они создают нагрузку на инфраструктуру, вызывают проблемы с производительностью и могут привести к сбоям в работе цифровых сервисов.

Наличие подходящих инструментов для реагирования на инциденты крайне важно для управления надежностью инфраструктуры. Многие подходы, ориентированные на облачные технологии, слишком сложны для понимания инженеров, которые отвечают за устойчивую работу сервисов (Site Reliability Engineering, SRE), и других специалистов. Им, безусловно, нужна большая наглядность, умение определять приоритеты, а также быстро выявлять и устранять проблемы. AIOps как никакой другой метод подходит для этих целей, особенно в условиях быстрого роста объема ПО и инфраструктуры, которыми необходимо управлять. Он придает командам необходимую уверенность, что их инфраструктура находится в безопасности, автоматически обнаруживая аномалии в корпоративной среде, прежде чем они превратятся в более крупные и сложные проблемы.

Как уже говорилось, количество приложений и объем инфраструктуры быстро растет, и AIOps крайне эффективен в качестве инструмента для обеспечения бесперебойной работы высоконагруженных сервисов. Он отлично справляется с большими, постоянно растущими объемами данных о производительности. Эти данные могут включать как данные наблюдений, данные о взаимодействиях, так и данные от сторонних инструментов. Алгоритмы и инструменты машинного обучения применяются к данным, чтобы помочь командам выявлять и диагностировать проблему. AIOps повышает осведомленность о происходящем, и помогает более эффективно автоматизировать управление инцидентами.

Ниже приводятся пять способов применения AIOps в реальной среде.

1. Выявление инцидентов

Это основной вариант использования AIOps. Он расширяет набор инструментов, чтобы группа могла быстрее обнаруживать проблемы. Искусственный интеллект и машинное обучение в автоматическом режиме распознают и классифицируют аномалии, а затем применяют накопленные знания для слежения за работой систем и инфраструктуры. AIOps является мостом к упреждающему подходу, который позволяет выявлять настораживающие признаки на ранних стадиях и, таким образом, помогает команде узнать о проблеме до того, как пользователь что-то заметит.

2. Уменьшение и сокращение шума

Усталость от потока предупреждений — серьезная проблема при реагировании на инциденты. Обилие предупреждений усыпляет бдительность команд, и они перестают реагировать на все предупреждения, даже если они критически важны. В идеале необходимо подавить оповещения с низким приоритетом и групповые оповещения, связанные друг с другом. AIOps может соотносить, подавлять и определять приоритеты предупреждений, избавляя команду от усталости от предупреждений и позволяя ей сфокусировать внимание на проблемах, которые представляют наибольшую угрозу устойчивой работе инфраструктуры.

3. Рассмотрение в контексте

Инциденты — быстро и хаотично движущиеся звери. Команды могут теряться из-за перегрузки информацией. Им нужно руководство, чтобы направить их работу в нужное русло. AIOps может автоматически отображать происходящее и обеспечивать целостное понимание инцидента. Контекст неоценим не только для понимания, но и для разрешения инцидента.

4. Набирайтесь опыта

AIOps — это живой, растущий инструмент, который постоянно совершенствуется. Прошлый опыт, текущее использование и отзывы пользователей создают отличные данные для обучения AIOps, помогая выявлять и предотвращать проблемы, которые случались в прошлом. Благодаря этому постоянно растущему объему информации модели становятся умнее и предоставляют индивидуализированные корреляции, идеи и рекомендации.

5. Интегрируйте данные, объедините команду

Данные об инцидентах из любого источника интегрируются с вашими текущими инструментами управления инцидентами и рабочими процессами. Чем больше данных вы получите, тем лучше будут обучены ваши модели машинного обучения, что приведет к более точным и полезным результатам. Решение AIOps принимает данные, обогащает их контекстом и отправляет уведомления соответствующим группам или респондентам, которые обладают подходящими инструментами управления инцидентами. Таким образом, команды не тратят критическое время на переключение между инструментами.

Для организаций, которые еще не начали применять AIOps, это может показаться трудной задачей. Тем не менее, есть несколько проверенных шагов для развертывания AIOps. Во-первых, подумайте, какой вариант использования лучше всего для вас подходит. Начните с малого, чтобы вы могли учиться, тестировать и увеличивать масштаб. Во-вторых, сохраняйте открытость. Люди сопротивляются изменениям, и вам нужно будет приложить некоторые усилия, чтобы развеять страхи людей об AIOps. И, наконец, будьте готовы к тому, что ИИ и машинное обучение повлияют на ИТ-операции. Число организаций, полагающихся на AIOps, растет, и эта технология быстро набирает популярность.