ИТ-операции влияют на качество безопасности и управления, а также на способность систем обслуживать бизнес. Но на фоне построения и развертывания ИТ-систем налаживание ИТ-операций часто становится второстепенной задачей, решение которой отодвигается на будущее, пишет на портале TechBeacon Дэвид Линтикум, директор по облачной стратегии Deloitte Consulting.

Не имеет значения, говорите ли вы о CloudOps, DataOps, SecOps, GovOps или других Ops: второстепенность операций — распространенная проблема. Она приводит к тому, что большинству организаций необходимо реформировать, переделать или перестроить свои операционные процессы, чтобы стать более эффективными и действенными.

Ниже представлены 12 проверенных шагов для реорганизации ИТ-операций вашего предприятия.

1. Оцените текущее состояние «как есть» всех облачных и необлачных систем

Где вы сейчас находитесь, и куда вам нужно попасть? Точное понимание статуса ваших операций является ключом к эффективным улучшениям. Это относится и к традиционным, и к облачным системам.

Вот несколько вещей, на которые следует обратить внимание:

  • текущее состояние данных, включая их распределенность и гетерогенность;
  • какие используются базы данных;
  • какое используется аппаратное обеспечение, включая конфигурации ЦП и памяти;
  • какими платформами приходится управлять (например, Linux);
  • какие периферийные системы находятся под управлением.

2. Оцените текущие операционные навыки

Проведите инвентаризацию наборов навыков, чтобы определить, какими из них располагают штатные сотрудники операционной службы. Составьте списки их навыков в конкретных категориях, таких как инструменты мониторинга, базы данных, системы безопасности и другие системы, развернутые у вас в настоящее время.

Имейте в виду, что эти категории связаны не только с операциями, но и со способностью решать конкретные проблемы, которые возникают на глубинном, нативном уровне большинства технологий, с которыми выполняются операции. Если операционные сотрудники должны вызывать администратора СУБД или разработчика для решения каждой проблемы, то такая операционная команда просто не будет масштабироваться.

3. Оцените текущие операционные процессы и плейбуки

Плейбуки — это простые руководства, которые иллюстрируют, как вещи отслеживаются, управляются и исправляются. Они составляют основной набор руководств, который обеспечивает последовательные подходы к операциям, что стандартизирует процессы и методы во всех операционных группах.

Вам нужны последовательные процедуры для решения всех проблем, которые необходимо решить. Например, если операционный процесс предполагает, что сервер или сетевое устройство необходимо перезагрузить, вам нужно убедиться, что все данные, проходящие через эти системы, не пострадают во время перезагрузки — удаленной, локальной или в облаке.

4. Оцените текущую эффективность операций и сервисов для бизнес-пользователей.

В операционных плейбуках часто отсутствуют инструкции по мониторингу конечных пользователей. Сама идея о том, что мы можем отслеживать, как конечные пользователи взаимодействуют с приложениями и базами данных, возникла лишь в последние несколько лет. Вот кое-что из того, что должен включать в себя мониторинг конечных пользователей:

  • мониторинг производительности, или промежуток времени между тем, как пользователь запросил некое поведение, и тем, когда оно состоялось;
  • время, затрачиваемое для возврата пользователю полученного по его запросу результата;
  • число возникающих пользовательских ошибок, на основании которого можно сделать вывод, что проверку данных необходимо улучшить.

5. Формирование видения операций, которые наилучшим образом соответствуют потребностям бизнеса или меняющегося рынка

Как вы себе представляете окончательно оптимизированное состояние ваших операций? Ваше видение может включать разные вещи, но вам нужны ответы на следующие основные вопросы:

  • Каковы ваши ожидания относительно автовосстановления и самоисцеления? Мгновенное? В течение нескольких часов? Или дней? Каждый вариант предполагает свой уровень затрат;
  • Каковы ваши ожидания в отношении мониторинга производительности конечных пользователей и ее улучшения?
  • Каковы ваши ожидания относительно мониторинга безопасности и управления ею?
  • Каковы ваши ожидания относительно уровня автоматизации?

Идея состоит в том, чтобы прийти к соглашению по ожиданиям. Убедитесь, что все понимают, что чем выше ожидания, тем выше цена, затрачиваемая на операционные инструменты и персонал.

6. Определите эффективную модель руководства, как исполнительного, так и линейного

Руководство имеет решающее значение для успеха операционной команды. Хорошие руководители устанавливают ожидания и достигают целей, которые обеспечивают высококачественные операции, процессы и навыки.

На этом этапе определите, какой тип руководства вам необходим применительно как к линейным менеджерам, так и к более стратегически сфокусированным руководителям. Каждый уровень руководства будет иметь различные миссии и навыки. Например, исполнительный руководитель будет являться экспертом по бюджетам и ресурсам, в то время как линейный будет концентрироваться на повседневных операционных задачах и долгосрочной производительности.

7. Определить роль и использование DevOps, в том числе на перспективу

Операционные (Ops) команды, как следует из названия, обычно являются частью команд DevOps. Они тесно сотрудничают с разработчиками (Dev), но старая привычка «швырять код через стену» подходит к концу.

Этот шаг должен прояснить, как Dev и Ops будут работать вместе. Это касается процессов и инструментов для совместной работы, установления ожиданий от того, как традиционные операционисты будут работать с новыми цепочками инструментов DevOps, и, наконец, от специального обучения и развития навыков, необходимых для того, чтобы эта коллаборация действовала.

8. Определите разрывы между текущим состоянием систем, наборов навыков и процессов

Это первый шаг в определении будущего, или того состояния, которое будет достигнуто благодаря работе, проделанной на предыдущих этапах. То, что будет получено на этом этапе, во многом зависит от нашего понимания состояния «как есть», которое должно быть подробно описано к тому времени, как вы достигнете этого шага.

Результаты этого этапа включают в себя:

  • целевые плейбуки для процессов как высокого, так и низкого уровня;
  • целевые операционные технологические функции, такие как самоисцеление, управление производительностью, операционные API и интеграция инструментов;
  • целевые навыки, включая понимание разрыва между состояниями «как есть» и «как должно быть»;
  • операционная модель для операционной команды; как она должна быть структурирована, чтобы работать успешно?

После того, как вы определили разрывы, вы должны понять, что нужно изменить, почему и когда.

9. Определите свой стек операционных технологий

Этот шаг часто делается первым. Но без понимания, полученного благодаря предыдущим шагам, мы не имеем представления о том, какие наборы операционных инструментов окажутся эффективными.

Сегодняшний список желаний, как правило, включает в себя следующие операционные технологии:

  • управление производительностью;
  • AIOps;
  • операции по обеспечению безопасности (SecOps);
  • операции по обеспечению управления (GovOps);
  • DataOps;
  • облачные операции (CloudOps).

10. Определить подход к тестированию и проверке концепций для новых инструментов и для их усовершенствования

Все, что было определено на предыдущем этапе, должно быть протестировано на функциональность, которая должна быть синхронизирована с требованиями как бизнеса, так и техническими. Существует также тестирование на совместимость с существующими приложениями, сетями и платформами.

Смысл в том, чтобы убедиться в отсутствии непонятных проблем, которые могут стать непреодолимыми. Примером может служить операционный инструмент, который не работает с конкретной базой данных. Более того, должны быть внедрены процессы постоянного обновления инструментария. Создайте культуру, в которой все, включая процессы и инструменты, может быть поставлено под сомнение и, таким образом, улучшено.

11. Определите метрики для определения текущего успеха и неудачи ваших операций

Объедините модели, чтобы определить, как вы будете измерять эффективность операций. Хотя многие считают, что все сводится к простой балльной оценке, реальность такова, что метрики, которые вы будете собирать со временем, должны быть как можно более точными и информативными. Включите в их число следующие:

  • количество простоев;
  • длительность простоев;
  • производительность конечного пользователя;
  • производительность и настройка;
  • стоимость эксплуатации каждой системы.

12. Определить процессы непрерывного улучшения всех аспектов операций

Этот последний шаг самый трудный. Вы должны определить культуру, процессы, организационные структуры, инструменты, навыки и т. д., которые в конечном итоге обеспечат итоговое улучшение ваших операций, выведут их на следующий уровень. Постоянное совершенствование должно включать в себя сотрудничество, людей, процессы и технологии.

Вот вещи, которые имеют наибольшее значение:

  • как будут сотрудничать операционные, а также другие команды (например, разработчики). Хотя это часто означает просто дать всем инструмент ChatOps, это больше относится к развитию культуры открытых коммуникаций;
  • процесс непрерывного совершенствования. Он может существовать только в том случае, если предыдущий шаг сделан правильно. Он предполагает, что каждый имеет возможность поставить под сомнение процесс, инструмент и навык — с целью постепенного улучшения всего и вся;
  • отслеживание метрик, и как эта обратная связь доберется до операционных команд, чтобы внести вклад в улучшения. Многие операционные службы делают это на ежегодной основе, но столь длинная задержка не поможет командам получить обратную связь, необходимую для своевременного улучшения чего-либо. Показатели должны быть доставлены на информационную панель, к которой все имеют постоянный доступ. Никогда не скрывайте данные.

И последнее замечание: без изменения культуры не обойтись. Ничто не гарантирует защиту от дурака. Однако если вы будете следовать этим шагам, концепциям и идеям, вы улучшите свои операционные процессы, людей и технологии. Имейте в виду, что высшая степень успеха подразумевает культурные изменения, и они часто являются самой трудной частью изменений.