В третьем ежегодном аналитическом докладе Uptime Institute по вопросам перебоев в работе дата-центров говорится о снижении числа инцидентов, связанных с простоями, в течение последних 12 месяцев в связи с пандемией, при этом основным источником технических трудностей становятся сетевые проблемы, сообщает портал ComputerWeekly.

По данным Uptime Institute, сетевые проблемы обходят проблемы с электропитанием в рейтинге основных причин перебоев в работе ЦОДов, поскольку предприятия стремятся переместить больше своих рабочих нагрузок в облако.

Третий ежегодный анализ отказов в работе дата-центров пытается пролить свет на частоту и причины простоев серверных ферм в течение последних 12 месяцев. Отчет утверждает, что частота отказов, по-видимому, заметно снизилась, и в качестве одного из факторов приводит коронавирусную пандемию.

«По данным нашего мониторинга известных перебоев в работе серверов, 2019 г. был особенно плохим, в то время как 2020-й стал лучшим за всю историю. Было не только меньше перебоев в работе, о которых известно из общедоступных источников, но серьезной оказалась лишь меньшая их часть. Вероятно, это связано с тем, что уровень критической для бизнеса активности был значительно понижен из-за Covid-19», — говорится в докладе.

Прямым следствием введенных правительствами из-за пандемии карантинных ограничений и требований оставаться дома является то, что многие компании временно прекратили или сократили масштабы своей деятельности, что, возможно, привело к уменьшению числа перебоев в работе ЦОДов.

Кроме того, в соответствии с рекомендациями Uptime Institute для операторов дата-центров, опубликованными в начале пандемии в марте 2020 г., многие фирмы также решили отложить осуществление проектов по обслуживанию и модернизации ЦОДов, которые, как правило, являются источником сбоев в работе.

«Если посмотреть на глобальную ИТ-инфраструктуру корпоративного класса в более общем плане (с охватом частных ЦОДов, колокации и публичных облаков), то данные ежегодного исследования Uptime Institute дают последовательную в течение нескольких лет картину: проблемы с электропитанием неизменно являются самой большой единственной причиной перебоев», — говорится в отчете. За ней следуют проблемы с ПО и ИТ, а также проблемы с сетью.

Однако теперь Uptime Institute ожидает, что больше перебоев будут вызваны проблемами с сетями и ПО/ИТ, и меньше — проблемами с электропитанием. Отчасти это связано с тем, что частота отказов, связанных с электроснабжением, неуклонно снижается, так как операторы принимают меры по улучшению инфраструктуры своих объектов и обучают персонал принимать превентивные меры против таких инцидентов.

В то же время, перебои в работе сети становятся все более распространенным явлением в связи с «широким переходом в последние годы от разрозненных ИТ-услуг, работающих на специализированном оборудовании», к модели, при которой ИТ-системы распределяются и реплицируются по нескольким объектам, связанным между собой сетевыми соединениями.

«Проблемы, связанные с сетью, в настоящее время становятся одной из наиболее распространенных, если не самой распространенной причиной простоев. И это вполне понятно: современные приложения и данные распределены по ЦОДам и между ними, при этом сеть становится все более критичной, — говорится в отчете. — В дополнение к этому программно-определяемые сети добавили большую гибкость и программируемость, что может привносить сложность, ведущую к сбоям».

Корпоративные дата-центры обычно обслуживаются «одним или двумя» телекоммуникационными провайдерами, но компании все чаще ищут возможность отказаться от таких объектов в пользу колокации или публичных облаков для выполнения своих рабочих нагрузок, поэтому риск того, что сетевые проблемы нанесут вред их операциям, возрастает.

«Многосекционные центры колокации могут обслуживаться несколькими телекоммуникационными компаниями. Некоторые из них могут совместно использовать кабели или другие ресурсы, что добавляет возможные точки отказов или точки ущемления пропускной способности, — говорится в отчете. — Ошибки конфигурации, ошибки встроенного ПО и поврежденные таблицы маршрутизации — все это играет большую роль в сбоях, связанных с сетью... Проблемы с перегрузкой и пропускной способностью также вызывают сбои, но часто они являются результатом проблем с программированием/конфигурацией».

Энди Лоуренс, исполнительный директор Uptime Institute по исследованиям, сказал, что доклад подкрепляет тот факт, что отказоустойчивость остается главной заботой руководителей бизнеса, а также выделяет растущие угрозы их способности поддерживать ИТ-системы в работоспособном состоянии.

«В целом, причины отказов меняются, проблемы с конфигурацией ПО и ИТ становятся все более распространенными, в то время как вероятность возникновения серьезных проблемы с работой ИТ-служб из-за проблем с электропитанием в настоящее время уменьшается, — сказал он. — Тем не менее перебои в работе остаются обычным явлением, что оправдывает возросшую озабоченность и инвестиции в их предотвращение. Из-за сбоев в работе и высоких расходов, возникающих в результате простоев ИТ-сервисов, выявление и анализ первопричин сбоев является важнейшим шагом на пути к избежанию более дорогостоящих проблем».