Набор методов, показателей и предписывающих способов обеспечения надежности систем SRE (Site Reliability Engineering) становится все более востребованным, но если культура организации неэффективна, то все усилия по внедрению новых инструментов, методик Agile и Lean будут напрасными, утверждает аналитики Constellation Энди Турай. Его мнение приводит портал ZDNet.

В эпоху, когда DevOps стал необходимостью, и никто не может позволить себе, чтобы что-то выходило из строя или даже замедлялось, практика SRE стала обязательной. Она соединяет операционную деятельность и разработку, и пользуется большим спросом. В недавнем исследовании Constellation Research «2022 Trends in Site Reliability Engineering» говорится, что между компаниями со зрелой SRE-практикой и теми, кто ее еще не освоил, существует большая разница.

«Отстающие компании находятся на расстоянии одного крупного инцидента от катастрофы, — говорит аналитик Constellation Энди Турай. — Для победы в цифровой экономике недостаточно иметь зрелую организацию DevOps — рука об руку с ней должна идти зрелая организация SRE, использующая подход программной инженерии к ИТ-операциям. Она необходима для обеспечения надежности и устойчивости независимо от скорости кодирования».

Культура и менталитет — это все. «Представление об ИТ как центре затрат или мысль о том, что ваши системы неуязвимы, должны измениться, — сказал он. — Вся идея SRE заключается в том, чтобы сделать ПО надежным и быть готовым к незапланированным простоям. Внедрять новые инструменты, Agile- и Lean-методики важно, но если культура организации неэффективна, усилия будут тщетны». Для развития высокофункциональной практики SRE Турай предлагает следующие рекомендации.

Сделайте организацию открытой. Организациям необходимо способствовать сотрудничеству в рамках одной команды, устранить препятствия, создать безопасную среду, где люди могут свободно поднимать вопросы и проблемы, принять подход, основанный на постоянном совершенствовании, автономии для команд и эмпатии к командным переговорам.

Привлеките искусственный интеллект и машинное обучение. Использование ИИ и МО убирает большое количество шума и улучшает соотношение шум/сигнал. Снижение количества предупреждений помогает сократить объем работы и предупредить выгорание, поскольку SRE-специалисты реагируют только на основные инциденты, а остальное время продуктивно тратят на кодирование и автоматизацию.

Инвестируйте в правильные инструменты. AIOps, наблюдаемость, управление инцидентами и средства автоматизации ИТ могут сыграть решающую роль в активизации SRE-усилий. Когда речь идет об управлении кризисами и инцидентами в облачную/цифровую эпоху, надежда — это не стратегия. Инвестиции в правильные инструменты — это ключ к тому, чтобы организации, эффективно использующие цифровые технологии, выживали и процветали.

Автоматизируйте инфраструктуру. Это является обязательным условием для сокращения или исключения работы с SRE. Помимо масштабирования в зависимости от спроса, оркестровки Kubernetes и управления кластерами, организации могут использовать автоматизацию во время инцидента, чтобы автоматизировать простые исправления без необходимости привлечения инженера.

Нанимайте и обучайте подходящий персонал. Если сначала персонал будет ориентирован на выявление инцидентов, эскалацию и ручные исправления, то со временем трудозатраты должны уменьшиться, и члены команды SRE смогут сосредоточиться на автоматизации или другой продуктивной работе, а не на эскалации и ручном поиске заявок на инциденты.