Следуя современным тенденциям развития ИТ — консолидации и виртуализации, — мир активно строит ЦОДы (центры обработки данных). О способах оценки эффективности их инженерной инфраструктуры и возможных путях увеличения этого показателя научный редактор PC Week/RE Валерий Васильев беседует с техническим директором департамента системных инженеров и сервиса подразделения APC by Schneider Electric корпорации “Шнейдер Электрик” в России и СНГ Андреем Воробьёвым.

PC Week: В каких единицах можно измерить эффективность инженерной инфраструктуры ЦОДа?

А. В.: Измерять эффективность инженерной инфраструктуры начали относительно недавно — несколько лет назад. До сих пор продолжается доработка и стандартизация этого процесса. Для проектирования ЦОДов применяется стандарт TIA-942. Для оценки энергоэффективности специалисты используют два параметра: Power Usage Effectiveness (PUE) и Data Center infrastructure Efficiency (DCiE). Параметр PUE показывает отношение подводимой к объекту мощности к мощности, потребляемой непосредственно ИТ-нагрузкой Параметр DCiE— представляет собой величину, обратную PUE: она показывает отношение мощности, потребляемой ИТ-нагрузкой, к общей мощности, подводимой к объекту. В системе российских стандартов пока ничего похожего нет, и все наработки, которыми мы пользуемся, приходят к нам из-за границы.

Однако к PUE и DCiE нужно относиться внимательно и вникать в детали их расчетов. Так, стремясь повысить энергоэффективность ЦОДа, тепло, выделяемое ИТ-оборудованием, порой используют для обогрева других объектов и тоже включают в его полезную мощность. Разумеется, это верный подход с позиции рачительного отношения к ресурсам, но значения PUE и DCiE в данном случае получаются не “чистыми”.

PC Week: Какой узел в инженерной инфраструктуре современных ЦОДов наиболее критичен с позиции эффективности?

А. В.: По расчетам специалистов Schneider Electric, наибольшая экономия энергии связана с системами кондиционирования. Чтобы увеличить энергоэффективность ЦОДа, устройства, забирающие тепло, сегодня располагают максимально близко к ИТ-нагрузке. Разумеется, система электроснабжения тоже имеет свой КПД. Но тут нужно помнить, что если пять лет назад КПД источника бесперебойного питания составлял 90%, то сегодня инженеры добрались уже до 95—96%. Борьба здесь идет за каждый процент. В холодоснабжении же возможностей куда больше.

Это связано не столько с технологией отбора тепла и выноса его наружу, сколько с подходом к конструированию, дизайну ЦОДа. Важно правильно расположить заполняющие его “ИТ-кубики”, чтобы теплые и холодные потоки не перемешивались, чтобы не боролись друг против друга. Самые большие потери происходят именно из-за этого, и именно здесь основная область для энергосбережения.

Современные тенденции конструирования должны отвечать росту плотности мощности в ЦОДе. Так, если три года назад компании заказывали вычислительные центры с максимальной мощностью 8 кВ•А на стойку, то сегодня стоятся объекты, в которых мощность на стойку достигает 60—70 кВ•А при средней 10 кВ•А. Такого роста никто не ожидал, и можно только гадать, что будет дальше.

Накладывает свои особенности на инженерную инфраструктуру и виртуализация. Обеспечить бесперебойную работу ИТ-оборудования в виртуализированной ИТ-среде сложно, поскольку нужно оперативно отслеживать выделение тепла каждым физическим сервером, а это зависит от вычислительной нагрузки, которая в условиях виртуализации изменяется во времени.

PC Week: Только ли с энергосбережением связана эффективность инженерной инфраструктуры ЦОДа?

А. В.: Более важным параметром для ЦОДа является время простоя, и его эффективность — это всегда компромисс между энергосбережением и надежностью. Когда проводится классификация ЦОДа, обследуются все его инженерные системы, чтобы правильно определить классность, оценить, насколько надежно ЦОД будет обслуживать ИТ-оборудование. Одним из методов повышения надежности является резервирование компонентов, а это фактически снижает нагрузку на каждый продублированный компонент в два раза. Как только мы переходим от нормального режима работы (с нагрузкой на оборудование 70—80% от расчетной) к режиму с нагрузкой 35-40%, КПД вычислительного центра падает. Чем больше степень резервирования, тем выше отказоустойчивость и ниже энергоэффективность объекта. Для оценки общей эффективности ЦОДа нужно учитывать совокупную стоимость владения объектом и не злоупотреблять резервированием.

Есть методы, которые помогают нивелировать связанное с повышением надежности падение энергоэффективности. Это применение модульных устройств и оперативное управление их электропотреблением с тем, чтобы потреблять электричество только в строго необходимых в данное время количествах. Но в любом случае мы ограничены требованиями к отказоустойчивости и надежности.

Из практики известно, что для ЦОДов классов III — IV Tier показатель PUE лежит в диапазоне 1,6—2, а для I — II классов этот показатель составляет 1,2 — 1,6. Однако я уже упоминал, что, используя PUE, нужно понимать, как его рассчитывали: у каждого ЦОДа как объекта есть свои особенности. К примеру, ЦОД может размещаться в здании, в котором есть еще и офисные помещения, и холодную воду в этом случае как для ЦОДа, так и для офисов можно подавать одним чиллером. Как в этом случае включать энергопотребление чиллера в расчет PUE?

PC Week: Какой компонент наименее надежен в инженерной инфраструктуре современного ЦОДа?

А. В.: Это — человек. Обеспечивая резервирование электронных и механических узлов, можно добиться высоких показателей надежности. Но если посмотреть на статистику отказов наиболее сложных объектов III — IV классов, то станет ясно, что в основном эти отказы связаны с ошибками обслуживающего персонала. Как бы специалистов ни учили, ни сертифицировали, человеческие ошибки остаются главным фактором сбоев.

По статистике Uptime около 80% всех сбоев в крупных ЦОДах связано именно с человеческим фактором.

На объектах более низкого класса (где резервирование невелико) ситуации с отказами не столь однозначны. В этом случае критических факторов воздействия на инженерную среду ЦОДа гораздо больше. Например, если электросеть, подведенная к ЦОДу, “грязная”, то ИБП часто переходят на батарейное питание и из-за этого быстрее изнашиваются. То же и с кондиционерами: в стабильных температурных условиях они работают надежнее и дольше.

PC Week: Насколько можно снизить влияние человеческого фактора в современном ЦОДе?

А. В.: Понятно, что полностью исключить его невозможно. Тем не менее инженерные системы становятся все более интеллектуальными. Так, разница между ИБП, выпущенными десять лет назад и сегодня, разительна. Новые модели в состоянии сами оценивать износ своих узлов и прогнозировать вероятность отказов. Но ведь и самые интеллектуальные устройства требуют периодического обслуживания и ремонта, а это делает тот же человек. Поэтому важно постоянно контролировать и состояние инфраструктуры ЦОДа, и работу персонала.

PC Week: Какие существуют подходы и инструменты для комплексной оценки состояния инженерной инфраструктуры ЦОДов?

А. В.: Есть две методики измерений — постоянная и эпизодическая. При реализации первой методики возможности мониторинга состояния инфраструктуры с целью контроля нужных параметров закладываются сразу на этапе проектирования ЦОДа и контроль параметров ведется непрерывно. По второй методике вмешательство измерительного оборудования в функционирование объекта имеет эпизодический характер. Понятно, что чем длительнее период между измерениями, тем менее точны результаты оценки состояния. При эпизодических измерениях можно выявить сегодняшние проблемы, но прогнозировать отказы трудно. Следовательно, стационарное размещение измерительного оборудования в инженерной системе ЦОДа и постоянный мониторинг предпочтительнее.

Однако системы постоянного контроля сложны и дороги, и это заметно уже на этапе инсталляции. Тем не менее стационарные системы, заложенные уже на этапе проектирования новых объектов, обходятся дешевле, чем внедренные на объектах действующих. Поэтому на старых объектах, как правило, проводятся эпизодические замеры параметров, характеризующих состояние инженерной инфраструктуры (и их результаты зачастую служат обоснованием для модернизации ЦОДа).

PC Week: Какие инструменты используются для реализации упомянутых вами методик измерения?

А. В.: Если говорить о постоянном мониторинге, то для этого разработаны, в том числе и в Schneider Electric, соответствующие программно-аппаратные устройства. Они могут взаимодействовать с системами проектирования ЦОДа, что позволяет проектировщикам рассчитывать параметры рабочих режимов инженерной среды. На этапе внедрения данные из системы проектирования передаются в систему мониторинга состояния инженерной инфраструктуры для соотнесения проектных параметров с действительными. В процессе штатной эксплуатации получаются уже более точные оценки поведения инженерных систем, отражающие их реагирование на любые режимы работы ЦОДа, что дает представление об устойчивости и надежности его инженерной инфраструктуры. На основании накапливаемых данных оцениваются возможности расширения ЦОДа (что рано или поздно приходится делать каждому владельцу).

Упомянутые программно-аппаратные средства позволяют рассчитать, куда лучше поставить то или иное ИТ-устройство, чтобы при этом, к примеру, не нарушилась работа системы кондиционирования. Подключение новых ИТ-ресурсов сразу отображается в подобных системах контроля. Они начинают контролировать новую нагрузку, демонстрируя операторам изменения в электропотреблении и тепловыделении.

Для выполнения аналогичных работ в ЦОДах, не оснащенных системами постоянного мониторинга, есть свой инструментарий с необходимым функционалом — анализаторы качества электросети, приборы для термографической съемки и т. п.

PC Week: Как системы контроля инженерной инфраструктуры взаимодействуют с системами управления ею?

А. В.: Идеальный случай, когда они завязаны в единую систему и взаимодействуют в онлайн-режиме. Чем дискретнее это взаимодействие, тем выше погрешности системы управления, а ЦОД требует постоянного управления и контроля.

PC Week: Можно ли ожидать технологических прорывов в области оборудования и решений, образующих инженерную инфраструктуру ЦОДа, или в настоящее время это устойчивая, хорошо оптимизированная среда?

А. В.: Многое зависит от того, как будут развиваться ИТ. Есть идеи обеспечения электропитания ИТ-оборудования от машин постоянного тока. Намечаются такие подходы, как жидкое охлаждение ИТ-оборудования. Его экономическая целесообразность пока не очевидна. Так, в понимании Schneider Electric это может дать лишь небольшую экономию в энергопотреблении — всего несколько процентов, а взамен потребовать перепроектирования большого количества оборудования и объектов. Если эти направления и получат развитие, то лишь эволюционным путём.

В то же время для мощных ЦОДов (в десятки МВ•А) уже есть методики, позволяющие повысить эффективность за счет индивидуального тюнинга, учитывающего уникальные инженерные особенности каждого такого объекта. Для ЦОДов среднего уровня (до 1 МВ•А), где актуальнее такие параметры, как надежность и защищенность, применимы стандартные методики повышения эффективности. Что касается маломощных объектов, то тут на первый план выступают задачи стандартизации подходов их сооружения.

PC Week: В комплексную оценку состояния инженерной инфраструктуры ЦОДа, наверное, нужно включать и обеспечение ее информационной безопасности. Насколько, по вашему мнению, эффективна сегодняшняя защита от кибератак?

А. В.: Думаю, что сегодня фокусироваться нужно на другом: как ЦОДы в нашей стране проектируются, строятся, насколько грамотно развертывается в них оборудование. Проблемы, на мой взгляд, больше возникают именно здесь.

PC Week: Благодарю за беседу.