Простая ошибка, допущенная в ЦОДе, может привести к серьезным последствиям. Опрошенные порталом InformationWeek эксперты рассказывают о том, как выявлять и предотвращать распространенные ошибки, прежде чем они нанесут вред бизнесу и людям.

Человеку свойственно ошибаться, но это никак не облегчает задачу вернуть дата-центр к работоспособности после того, как невинная ошибка прервала работу жизненно важных служб. Согласно исследованию Uptime Institute, примерно 70% проблем в ЦОДах, начиная с простоя систем и заканчивая дорогостоящими нарушениями безопасности, вызваны человеческими ошибками. «Хотя ИТ-команды жизненно важны для нормальной работы дата-центра, но люди могут допускать ошибки вследствие того, что не досконально изучили работу оборудования или просто не соблюдают процедуры, — заметил заслуженный инженер глобального CTO-офиса Dell Technologies Саид Табет. — Стандартные процессы и задачи могут именно сейчас ускользнуть от внимания команд, которые находятся за пределами предприятия или работают удаленно».

«Самонадеянный, неосведомленный, самодовольный „эксперт“ — это самый опасный человек в любом ЦОДе, — полагает Джон О’Коннор, менеджер по операциям технологической инфраструктуры медиа-компании Bloomberg. — Я предпочитаю работать с людьми, которые знают границы своих возможностей, обладают высоким уровнем критического мышления и умеют работать в команде, обучая других и обучаясь сами».

Сокращение количества ошибок

Важную роль в сокращении количества ошибок в ЦОДе играет правильная практика развертывания. «Нужно правильно развести и маркировать электропроводку, — посоветовал Джо Маккенна, CIO сервис-провайдера Syntax. — Вам нужна хорошая документация для стоечного оборудования». Чтобы убедиться, что члены команды получают доступ к нужному оборудованию и работают с ним, требуются подробные схемы работы. «Прежде чем кто-то чего-то коснется, нужно все подробно перепроверить — это позволит уменьшить количество ошибок и простоев», — сказал он.

Передовые практики виртуального доступа к системам ЦОДа предусматривают тщательное изучения заявки или запроса об инциденте, чтобы гарантировать, что технический специалист будет работать с соответствующей системой. «Лучше всего, чтобы выполнение основных действий, таких как перезагрузка и перезапуск, контролировалось еще одним человеком. Он должен проверять и одобрять предпринимаемые шаги», — говорит Маккенна.

Самая распространенная человеческая ошибка — это неправильное конфигурирование системы, уверен Амр Ахмед, исполнительный директор EY Consulting по бизнесу и технологиям. «В частности, ошибки возникают из-за системных исправлений или обновлений, таких как обновление прошивки хранилища, которое может вызвать остановку платформы хранения или сломать конфигурацию резервного источника питания», — отметил он.

Самый простой способ справиться с ошибками — это внедрить строгую дисциплину управления изменениями в сочетании с четким пониманием различных взаимозависимостей в среде ЦОДа. «Эти задачи, наряду с интеллектуальной автоматизацией и оркестровкой, помогут избежать серьезного каскадного эффекта и, в конечном итоге, негативного воздействия», — добавил он.

Автоматизация вселяет надежду

По словам Табета, эффективным способом снижения риска простоев и отключения ЦОДов является автоматизация задач, наиболее подверженных человеческим ошибкам. «Повышение эффективности обучения персонала помогает повысить производительность и ускорить правильное развертывание новых технологий в дата-центрах. Достичь этого можно при помощи ИИ-методологий», — утверждает он.

Тем не менее, часто возникают ситуации, когда сложные системы управления не справляются и необходимо немедленное вмешательство человека и анализ/принятие решений на месте. «ИИ-автоматизация в ЦОДах дает организациям мощные возможности и понимание ситуации, но без команды управления системой и применения добытой информации организации менее эффективны и не могут оптимизировать процессы, — пояснил Табет. — Управлять системой должны опытные сотрудники — этому их нужно обучить или привлечь со стороны».

Ахмед также считает, что ключом к сокращению числа человеческих ошибок является не просто автоматизация, а интеллектуальная автоматизация. «Современные ЦОДы и эпоха цифровой трансформации создают проблемы, связанные со сложностью работы и масштабируемостью, которые мешают работе человека и снижают его способность справляться с ситуацией», — заявил он. Выявление аномалии сопровождается повышенной активностью системы управления — на панель поступают данные телеметрии и предупреждения, в которых человек попросту не успевает разобраться и среагировать в режиме реального времени.

«В ЦОДах проявляют повышенный интерес к программным продуктам на основе ИИ для мониторинга и управления ИТ-инфраструктурой (AIOps), — заметил Ахмед. — ИИ — это мощная технология, которая помогает людям принимать более эффективные деловые и технические решения».

Для того, чтобы справиться со сложностями, присущими управлению дата-центром с заполненными ИТ-оборудованием стойками, при развертывании его систем требуется тщательное планирование кабельной разводки, документация и валидация. «Для успешного выполнения операций дата-центра важно иметь четкие и протестированные процедуры», — говорит Маккенна.

Регулярное обучение персонала также важно, как и автоматизация стандартных процедур, для уменьшения ошибок и повышения скорости и эффективности. «В целом обучение готовит людей к работе в среде ЦОДа, придавая им уверенность и оттачивая точность действий, — добавил он. — Это снижает количество ошибок».

Выводы

О’Коннор признает, что, несмотря на все усилия и тщательное внимание к деталям, полностью устранить человеческие ошибки в рамках любого сложного социально-технического проекта невозможно. «Это хорошо известно в областях, где существует опасность для жизни, таких как авиация или эксплуатация атомной электростанции, — отметил он. — В ЦОДах, где темпы технологических изменений только ускоряются, мы конечно стремимся к совершенству, хотя и понимаем, что оно недостижимо».