Когда случаются сбои, организации должны иметь инструменты для их быстрой диагностики и устранения. Именно здесь на помощь приходит наблюдаемость, пишет на портале ITPro Today Питер Пезарис, директор по стратегии и дизайну компании New Relic.

Экономическая нестабильность, рост затрат и растущее давление на компании с целью завоевания доверия и лояльности потребителей — вот те факторы, которые заставляют организации искать новые способы предоставления отзывчивых и высокопроизводительных цифровых услуг. Облачные вычисления предоставили им впечатляющие возможности для создания масштабируемых приложений, адаптирующихся к быстро меняющимся условиям ведения бизнеса, но также привнесли новые уровни сложности.

Современные корпоративные приложения состоят из сотен или тысяч слабосвязанных контейнерных сервисов и эфемерных функций, связанных между собой через API. Диагностика причин сбоев может оказаться непосильной задачей, но она крайне важна, поскольку новое исследование показывает непомерно высокую стоимость таких сбоев.

Согласно отчету New Relic «2023 Observability Forecast», средняя годовая стоимость сбоев, оказывающих большое влияние на бизнес, составляет 7,75 млн. долл. 60% респондентов опроса заявили, что в среднем час простоя обходится не менее чем в 100 тыс. долларов, 32% опрошенных оценили его в более чем 500 тыс. долларов, а 21% заявили, что простои обходятся их организациям не менее чем в 1 млн. долл. в час.

Что вызывает простои?

Ошибки, простои и перебои в работе могут возникать по разным причинам. Наиболее распространенными причинами являются аппаратные сбои, ошибки в ПО, кибератаки и человеческие ошибки. Минимизация рисков начинается с получения поддержки на самом высоком уровне организации для инвестирования в надежную ИТ-инфраструктуру, кибербезопасность и разработку облачных приложений. Учитывая, что более 70% взаимодействий с клиентами происходит через цифровые каналы, доводы в пользу таких инвестиций являются убедительными.

Проактивные меры, которые могут предпринять организации для минимизации риска простоя, включают:

  • регулярное обслуживание систем, чтобы убедиться, что оборудование находится в хорошем рабочем состоянии и обновляется с помощью патчей и исправлений безопасности;
  • внедрение надежных методов кибербезопасности, таких как многофакторная аутентификация, контроль доступа с нулевым доверием, сегментация сети и сканирование конечных точек;
  • внедрение практик разработки ПО «сдвиг вправо» и «сдвиг влево», которые распространяют тестирование во весь жизненный цикл — от первоначального проектирования до текущего обслуживания;
  • поощрение сотрудничества между разработчиками, чтобы потенциальные сбои можно было устранить во время циклов сборки и развертывания;
  • инвестирование в механизмы резервирования и восстановления работоспособности для снижения риска простоев и обеспечения бесперебойного обслуживания.

Однако, несмотря на все усилия, некоторые сбои неизбежны. Когда они происходят, организациям необходимо иметь инструменты для диагностики и устранения неполадок в кратчайшие сроки. Найти источник ошибки не так просто, как кажется.

Наблюдаемость — это дисциплина, которая служит для сбора и анализа метрик, журналов и трассировок, генерируемых ИТ-инфраструктурой и приложениями в масштабе. Она направляет вас к источнику проблемы, чтобы вы могли устранить ее до того, как произойдет серьезный инцидент, предоставляя командам возможность копать так глубоко, как им нужно, прежде чем внедрять решения.

Опрос, проведенный компанией New Relic среди 1700 специалистов в области технологий в 15 странах, показал влияние наблюдаемости на итоговые показатели бизнеса. В организациях, внедривших наблюдаемость всего стека, средние затраты на устранение сбоев оказались на 59% ниже среднестатистического показателя в 7,75 млн. долл. Они также сообщили о меньшем количестве сбоев, меньшем среднем времени обнаружения и разрешения проблем (MTTD и MTTR), более низкой стоимости устранения последствий сбоев и более высоком медианном годовом возврате инвестиций по сравнению с теми, кто не достиг наблюдаемости всего стека.

Предсказание, а не реакция

Наблюдаемость — это проактивность и прогнозирование. Она опирается на большие объемы данных, полученных из множества источников, и стремится определить не только, что и когда произошло, но и почему и как. Одно из главных преимуществ наблюдаемости заключается в том, что она позволяет выявить неожиданные проблемы, которые с наибольшей вероятностью могут стать причиной длительного простоя. Она усиливает проактивные меры, описанные выше, позволяя администраторам и разработчикам быстро увидеть влияние изменений, таких как релизы кода или выпуск исправлений.

Хотя журналы, метрики и трассировка являются тремя основными элементами наблюдаемости, может быть задействовано до 17 отдельных подфункций, включая мониторинг сети, мониторинг баз данных, отслеживание ошибок и AIOps. Результаты опроса показывают четкую корреляцию между количеством используемых организацией инструментов и отдачей в виде более редких и коротких простоев. Например, респонденты, указавшие, что в их организации используется пять и более средств наблюдаемости, на 40% чаще обнаруживали серьезные сбои в работе за 30 минут или менее, чем те, у кого было менее пяти средств.

Достижение наблюдаемости всего стека не означает использование всех возможных инструментов. Речь идет о возможности наблюдать за состоянием каждого компонента в распределенной среде в режиме реального времени. Элементы, необходимые для этого, зависят от сложности ИТ-стека.

Более важным, чем количество используемых инструментов, является унификация данных. Консолидированный подход позволяет разработчикам и инженерам переключить свое внимание с тушения пожаров на устранение проблем до их возникновения. Это также улучшает совместную работу и повышает уровень квалификации. Респонденты, получающие унифицированные телеметрические данные, сообщили о меньшем количестве сбоев, имеющих большое значение для бизнеса, более быстром MTTD и более быстром MTTR по сравнению с теми, у кого данные были разрозненными.

Ценность такого единого взгляда отмечают и ИТ-руководители, четверть из которых сообщили, что жонглирование слишком большим количеством инструментов мониторинга является основной проблемой на пути к достижению наблюдаемости всего стека. К счастью, ситуация улучшается. Среднее количество инструментов, которые, по словам респондентов опроса-2023, они используют, сократилось по сравнению с предыдущим годом, в то время как доля респондентов, использующих один инструмент, увеличилась более чем в два раза. Это говорит о том, что по мере развития наблюдаемости ИТ-организации переходят к стратегии консолидации.

Наблюдаемость — это лишь один из аспектов устойчивой ИТ-инфраструктуры, но он связан с передовыми практиками во всем мире. Если учесть растущую стоимость простоя в виде бизнес-потерь, разочарования клиентов и ущерба репутации, то доводы в пользу инвестиций в устойчивость становятся очевидными.