Переход к самовосстанавливающейся системе управления операциями, когда человек привлекается только в случае необходимости, — вот в чем истинная окупаемость инвестиций в агентов искусственного интеллекта, пишет на портале The New Stack Жоан Фрейтас, генеральный директор и руководитель инженерного ИИ-направления компании PagerDuty.
Современные ИТ-команды вынуждены минимизировать время простоя и постоянно совершенствовать управление операциями, но инструменты, которые они получают для достижения своих целей, часто оказываются недостаточными, даже если они позволяют автоматизировать рутинные задачи.
На базовом уровне организации могут улучшить конвейер управления операциями с помощью отдельных агентов ИИ, которые выполняют простые задачи и предлагают альтернативные варианты, если известные способы устранения неполадок не работают. Однако агенты ИИ могут пойти гораздо дальше, действуя автономно в сети агентов, приближаясь к самовосстанавливающимся системам.
В настоящее время агенты ИИ используются многими организациями, причем, согласно одному из исследований, их уже внедрили более половины организаций. Однако мультиагентные системы ИИ позволяют заглянуть в будущее операционной деятельности. Эти сети агентов — в отличие от отдельных агентов, действующих автономно для отдельных процессов, — обеспечивают взаимодействие между инструментами ИИ для диагностики и решения ИТ-проблем в режиме реального времени.
Мультиагентные системы ИИ могут значительно улучшить существующие процессы на протяжении всего жизненного цикла управления операциями. От интеллектуальной обработки заявок до автономной отладки и проактивного обслуживания инфраструктуры — эти системы могут проложить путь к самовосстанавливающимся ИТ-средам. В конечном итоге необходимость вмешательства человека может быть ограничена только теми случаями, когда требуется его опыт, что поможет поддерживать бизнес в рабочем состоянии и обеспечивать постоянные инновации для клиентов.
Чтобы реализовать этот потенциал, организациям следует сосредоточиться на трех ключевых этапах — диагностике, устранении неполадок и непрерывном обучении — для постепенного создания самовосстанавливающейся ИТ-среды.
Диагностика
ИИ-агенты в управлении операциями значительно ускорят диагностику инцидентов. Расследование и диагностика инцидентов — это трудоемкий, многоступенчатый процесс, в котором отправной точкой часто является один человек, отвечающий за инцидент. И этот процесс может быть крайне сложным, особенно с учетом того, что нормативные акты устанавливают для организаций сжатые сроки отчетности.
В ЕС введены в действие директива NIS2 и закон о цифровой операционной устойчивости DORA, а в Великобритании в конце этого года будет принят свой закон о кибербезопасности и устойчивости. Подобные нормативные акты требуют от организаций повышения операционной устойчивости цифровых систем, а этого крайне сложно добиться, работая вручную.
На этом начальном этапе управления операциями можно развернуть сеть агентов ИИ для сортировки проблем, оценки серьезности инцидента и потенциального радиуса поражения, а также для эскалации при необходимости. ИИ-агенты могут понимать текущие заявки на поддержку, а также то, какие службы непосредственно затронуты инцидентом.
Работая в сети и обладая продвинутыми возможностями рассуждения, эти агенты могут также определять, какие сервисы зависят от других, и предоставлять дополнительный контекст, необходимый людям, отвечающим на инциденты.
Системы агентов ИИ позволяют людям использовать интеллектуальную автоматизацию для обнаружения и сортировки инцидентов в зависимости от их серьезности и наличия известных способов устранения. На этапе сортировки агентный ИИ способен проводить диагностику — например, ошибок приложений, вычислительных ресурсов, таких как процессор или память, или собирать журналы и данные трассировки — для того чтобы специалисты могли исключить типичные, повторяющиеся проблемы.
Устранение
После этапа идентификации сеть агентов ИИ может значительно улучшить процесс устранения последствий инцидента. При обнаружении инцидента агенты могут попытаться решить проблему с помощью известных исправлений, используя информацию о прошлых инцидентах. Если несколько агентов объединены в сеть, они могут разрабатывать альтернативные решения, если первоначальные усилия по устранению не сработали, и при этом сообщать инженерам о ходе процесса.
Для проверки результатов работы модели ИИ очень важно, чтобы человек был в курсе происходящего, однако агентам необходимо доверять автономную работу в системе, чтобы они могли выявлять неисправности и сообщать о них инженерам.
В сети агенты ИИ имеют достаточно исторических данных, чтобы понять, как разрешить инциденты и когда следует передать проблему человеку. Агенты могут даже предложить человеку вариант решения проблемы, а затем, если он будет принят, предпринять автономные действия, позволяя человеку выступить в качестве посредника и проверить результаты работы модели.
Сочетая подход HITL (Human-in-the-Loop, «человек в контуре») с автономными агентами ИИ, организации могут итеративно совершенствовать процессы управления операциями и все больше смещаться в сторону агентных моделей и приближаться к самовосстанавливающейся системе.
Обучение
Самым важным шагом в создании самовосстанавливающейся системы является обучение агентов ИИ, чтобы они могли учиться на каждом инциденте, а также друг у друга, чтобы стать по-настоящему автономными.
Чтобы это произошло, агенты ИИ не могут быть изолированы от реагирования на инциденты. Вместо этого они должны быть включены в более широкую систему организации, взаимодействовать со сторонними агентами и позволять им выводить корреляции из каждого действия, предпринятого для разрешения каждого инцидента. Таким образом, история инцидентов в каждой организации становится обучающими данными для агентов ИИ, что гарантирует, что предпринимаемые ими действия будут соответствовать специфике организации и будут актуальными.
Со временем агенты ИИ смогут выявлять успешные модели управления операциями и соответствующим образом корректировать свои стратегии. В результате может быть создана действительно самовосстанавливающаяся система, позволяющая инженерам доверять своим агентам ИИ решение простых, повторяющихся инцидентов и передавать человеку только высокоприоритетные или новые проблемы.
Доверьте агентам ИИ лечение ваших систем
С тех пор как начался последний цикл шумихи вокруг ИИ, организации пытаются получить истинную отдачу от инвестиций в ИИ. Хотя инструменты генеративного ИИ хороши для обобщения и создания контента, они не дают тех преобразующих преимуществ, которые могут предложить агенты ИИ.
ИИ-агенты полностью изменят способы проведения инженерами своего рабочего времени. Вместо того чтобы тушить пожары и проводить часы на вызовах и в ситуационных комнатах, инженеры смогут сосредоточиться на инновациях и совершенствовании услуг, доверив агентам ИИ всю работу по устранению последствий инцидентов.
Переход к самовосстанавливающейся системе управления операциями, когда люди привлекаются только в случае необходимости, — вот в чем истинная рентабельность инвестиций в агентов ИИ. Эта новая парадигма управления операциями может свести время простоя системы практически к нулю, при этом значительно улучшив повседневный опыт работы инженеров.