Центры обработки данных — дорогие, сложные системы, потребляющие значительное количество электроэнергии. Как сделать эксплуатацию ЦОДа менее затратной? Какие мероприятия необходимо провести, чтобы уменьшить сложность систем, получить наглядную картинку функционирования и развития ЦОДа? Мы побеседовали об этом с Юрием Драбкиным, консультантом по сопровождению жизненного цикла инфраструктуры ЦОД компании Schneider Electric.

Что такое оптимизация ЦОДа?

Мы общаемся с различными сотрудниками ЦОДов, и каждый специалист вкладывает в понятие оптимизации разный смысл: главный энергетик и бухгалтер считают, что это сокращение общих счетов за потребленную электроэнергию. С точки зрения главного инженера — это уменьшение потребляемой мощности, чтобы ее можно было перевести с одних подсистем на другие, например, с охлаждения на подключение ИТ-оборудования, повысив полезную нагрузку на ЦОД. И это тоже оптимизация электроэнергии, но уже другая. С точки зрения департамента развития, оптимизация ЦОДа заключается в повышении прозрачности общей картины: необходимо понимать, сколько ресурсов использовано на данный момент и знать динамику изменения процесса утилизации ресурсов на протяжении нескольких лет, чтобы планировать дальнейшее развитие информационных систем. Есть и другие взгляды на оптимизацию, но для всех них и все их необходимо учитывать. Мы проводим единый комплекс мероприятий, но подстраиваем его под ситуацию, в зависимости от того, с какой именно задачей обращается клиент в Schneider Electric. В результате заказчик получает то, что ему требуется. У нас в стране под оптимизацией чаще всего понимают сокращение — что-то порезали, что-то сократили; но, в нашем понимании, речь идет прежде всего об увеличении КПД систем. А КПД для финансиста — это прибыль, для энергетика — киловатты энергии, для ИТ-специалистов — это количество свободных юнитов или шкафов. И можно сказать, что мы увеличиваем КПД ЦОДа в целом, при этом бизнес получает увеличение прибыли при тех же затратах, ИТ-специалисты могут доустановить новое оборудование при имеющихся системах, а энергетики — получить сокращение счетов; и все это можно получить в ходе внедрения единого комплекса мероприятий.

О каких этапах оптимизации и каких мероприятиях идет речь?

На первом, подготовительном этапе мы стараемся понять, что требуется клиенту, какую цель он преследует. Часто перед нами ставят локальные задачи, например «у нас плохо работают кондиционеры» или «мы хотим получить систему мониторинга», не стремясь увидеть картину в целом, если эта картина не входит в зону ответственности конкретных специалистов. Мы же общаемся с различными службами ЦОДа, и у нас есть возможность увидеть ситуацию целиком. Также мы должны понять, что в результате хочет получить бизнес.

Наши специалисты проводят аудит площадки, чтобы понять, как она работает — оценивается правильность и эффективность работы оборудования ЦОДа. Может быть разное количество стоек, разные системы охлаждения и все хорошо спроектировано, но плохо реализовано, или может быть все хорошо спроектировано и построено, но сложности возникают уже на этапе эксплуатации. Во время проведения аудита мы выявляем конкретные физические проблемы: перекрытие воздушных потоков, перегрев оборудования, пиковые потребления электроэнергии. К примеру, у одного из заказчиков, раз в три дня в конкретное время срабатывал автомат защиты от перегрузки. Оказалось, что все автоматы стояли в горячем коридоре в теплой зоне, и этот автомат обслуживал оборудование сервиса процессинга, который регулярно запускался в конкретный момент в рабочее время, при этом увеличивалось потребление, и автомат отключал нагрузку. Мы в течение нескольких дней проводим аудит, наши специалисты разными приборами замеряют воздушные потоки, температуры, множество энергетических параметров. Замеры проводятся как на уровне стоек оборудования, так и на уровне машинного зала целиком.

После проведения аудита мы сравниваем потребности заказчика и картину, полученную в ЦОДе. На основе этого сравнения выдвигаются предложения, что и где можно улучшить. Мы стремимся максимально утилизировать затраченные средства и выжать из уже установленного оборудования все, на что оно способно. Мы понимаем, где есть неправильная циркуляция воздуха, где ошибки в эксплуатации системы энергоснабжения, и стараемся управлять параметрами климата и энергетики, т.е. их балансом. Но чтобы управлять балансом, необходимо внедрить мониторинг как сервис: поставить датчики, организовать систему сбора, обработки и представления информации о ЦОДе. В службе эксплуатации центра обработки данных система мониторинга должна быть внедрена как сервис, и заказчик сможет непрерывно производить улучшения. Когда люди видят замеренные параметры для своей площадки и уменьшение энергопотребления на 20% без отключения или демонтажа оборудования, а только за счет изменения режима его функционирования, тогда они изъявляют готовность инвестировать в такие проекты. В системе мониторинга мы устанавливаем датчики температуры, влажности, а также датчики тока и напряжения, если они не были установлены ранее. Мы должны видеть картину по двум основным подсистемам: электроснабжения и холодоснабжения. Если у заказчика подобное оборудование уже есть, то мы используем его.

В чем заключается процесс оптимизации?

После внедрения мониторинга как сервиса, мы можем начинать дорабатывать какие-то физические вещи. Например, у одного заказчика мы переложили фальшпол. У него все работало правильно, но не хватало пропускной способности решеток фальшпола, чтобы обеспечивать необходимый воздухообмен для охлаждения оборудования. У другого установили заглушки в неиспользуемые юниты стойки, из-за отсутствия которых горячий воздух смешивался с холодным и возникали точки перегрева оборудования. Воздух из кондиционера выходил с температурой 13° С, в фальшполе перед стойкой у него была температура 18° С, а на сервер он приходил уже с температурой 27° С. Горячий воздух перемешивался с холодным, а специалисты службы эксплуатации решали проблему перегрева, выставляя уставки вниз, вследствие чего кондиционеры потребляли много, но работали неэффективно. Мы провели обследование с помощью датчиков и тепловизоров, выявили точки перегрева и зоны смешения воздушных потоков, сделали изоляцию, установив заглушки во все неиспользуемые технологические отверстия в стойке и организовав систему изоляции воздушных коридоров. Коридорами можно оснащать стойки без каких-то грязных работ. У нас был опыт подобной доработки без отключения оборудования ЦОДа. Проведя эти работы мы не заметили изменения электропотребления оборудования: по-прежнему из кондиционера воздух выходил с температурой 13° С, но на серверы он приходил уже с температурой 15° С. Только после этого мы смогли перенастроить систему кондиционирования. Далее последовало переключение ИТ-оборудования, когда выявился дисбаланс по фазам, разная загрузка стоек: в одном ряду оборудование в одной стойке потребляет 3 кВт, в другой 7 кВт или 10 кВт. Был случай, когда практически все оборудование было подключено к одной фазе, несмотря на трехфазные PDU. После того как путем рекомбинации без отключения нагрузки ЦОДа ответственный специалист службы эксплуатации переключил по нашему указанию нагрузки по всем трем фазам, потребление электроэнергии сократилось. Если говорить про комплекс использованных мер, то удобно воспользоваться показателем энергоэффективности (PUE). PUE — это метрика, показывающая, насколько хорошо работает ЦОД. Сейчас новые большие площадки проектируются с показателем PUE 1,3–1,4, а для ЦОДов, работающих по 5–10 лет, типовое значение PUE около 2, и в нашей практике был случай, когда в машинном зале с фреоновым охлаждением (классическая тяжелая система), PUE до оптимизации был 1,84, а стал 1,64, что является очень хорошим показателем для фреоновых систем.

Таким образом, внедрив мониторинг и проведя ряд небольших доработок по результатам аудита, можно приступать к активным мерам — перенастраивать оборудование или отключать его при отсутствии необходимости его работы. Например, если работают пять кондиционеров с компрессорами с переменной производительностью каждый, но оказывается, что достаточно двух, то можно один кондиционер отключить, а два перевести в горячий резерв. Эти меры мы вырабатываем уже в рамках конкретной ситуации. По итогам внедрения активных мер после аудита, мониторинга и доработки пространства ЦОДа мы получаем снижение потребления электричества. Но кроме этого мы попутно решаем и ряд других проблем. Процесс, концепция и доработка единые, но в результате мы получаем и сокращение потребления электричества, и улучшение предсказуемости работы инженерных систем, т.е. работу инженерного оборудования в более комфортных режимах. За счет этого срок его эксплуатации увеличится и в ЗИПе понадобится меньше запчастей. При снижении потребления тех же площадок можно получать большую утилизацию. Как правило, ЦОДы утилизируются на 50–60% максимум, с учетом резервирования, и это нормально, но стойки очень редко загружены на 100%. Даже если удастся загрузить полностью одну стойку, то все десять — сложно. Далее возникает вопрос: как она загружена? Предположим, есть пять стоек, загруженных кроссами на 100% по юнитам, но у них свободное питание и туда свободно можно было бы подключить 20 кВт. В соседних трех стойках стоят блейд-серверы, по две корзины в каждой стойке. Двадцать юнитов свободно, но туда больше ничего не поставить, потому что исчерпан лимит по питанию. Еще две стойки стоят дальше всего от кондиционера, там есть и юниты, и питание, но не хватает воздушного потока системы охлаждения. Внедрение нашего комплекса DCIM Schneider Electric, а именно продукта StruxureWare Data Center Operation, позволяет увидеть баланс (или дисбаланс) основных ресурсов ЦОДа: развесовку оборудования, свободные юниты, потребление на каждой стойке, или группе стоек, их охлаждение, и если где-то обнаруживается дисбаланс ресурсов, то можно переутилизировать оборудование. После изменения режима его работы, как правило, высвобождаются ресурсы как по энергетике, так и по холоду, и эти условно средние 30% ресурсов можно переутилизировать. Не нужно покупать новые кондиционеры или ИБП, перетягивать провода — в 90% случаев все уже есть. Когда мы объясняем финансисту, отделу развития или собственнику бизнеса, что можно получить высвобождение ресурсов, деньги на которые уже потрачены, то это оказывается для них интересным.

Как быстро окупаются подобные проекты оптимизации?

Если считать только по сэкономленному электричеству, то типовой срок окупаемости подобных проектов составляет три-четыре года. Это хороший показатель по европейским меркам, но в России — свои реалии, и здесь не любят проекты, с окупаемостью дольше трех лет. Но когда мы показываем, что можем переутилизировать CAPEX, ситуация меняется. Например, если сейчас у заказчика имеются четыре машинных зала по 100 стоек со средней загруженностью в 70%, а ему требуется построить пятый модуль, то в принципе можно отказаться от строительства модуля на 100 стоек, и недостающее добрать из существующих недоутилизированных ресурсов. С учётом этих факторов срок окупаемости подобных проектов составляет максимум полгода, что выглядит действительно привлекательным для заказчика. Когда мы доносим наши доводы до бизнеса и департамента развития, коллеги их принимают и используют. Могу сказать, что сейчас у Schneider Electric в разработке находятся 14 подобных проектов. Основное преимущество нашего подхода заключается в решении проблем заказчика с помощью универсального инструмента, который мы создали в середине прошлого года. Заказчик не хочет покупать отдельные кусочки — мы перешли от выполнения блочных работ, к предоставлению результата, когда клиент покупает конечный сервис. Мы формируем не услугу, которую заказчик должен применить, мы решаем его проблемы: если есть сложности с энергетикой, мы оптимизируем энергетику; если есть сложности с развитием, к примеру требуется установка дополнительных 30 или 50 стоек в перспективе полугода, а цикл строительства нового ЦОДа — год, то проведение подобной оптимизации может оказаться выходом из положения. Рекордный срок проведения таких работ от момента инициации проекта до его завершения составил три недели. При этом проект был не совсем простым: ЦОД был не очень крупным, но технологически сложным — там использовалось разноплановое оборудование: телеком, нестандартные серверы HP с фронтальным и тыльным охлаждением, наличие пяти кондиционеров, расположенных с одной стороны зала, с необходимостью организации сложной схемы подачи охлаждённого воздуха. Когда мы говорим о снижении ТСО, надо иметь в виду, что капитальные затраты на ЦОД уже произведены и мы с помощью небольшой доработки позволяем их использовать.

С какими подразделениями заказчика приходится сотрудничать при реализации проекта оптимизации?

Перед началом проекта требуется заручиться поддержкой большинства подразделений компании заказчика. Если департаменты конфликтуют друг с другом, то внедрение такого решения может оказаться сложной задачей. Тут должно быть сотрудничество департаментов развития и эксплуатации. Если мы придем в департамент развития и заявим, что вам не нужно строить ЦОДы, то нам скорее всего ответят: «Нет, нам нужно строить ЦОДы!». Здесь на помощь приходится призывать владельца бизнеса, который платит и за операционную часть и за капитальную части. И важно донести до собственника информацию о том, что его суммарные показатели в результате оптимизации только улучшатся.

Так как внутри машинного зала мы затрагиваем и ИТ-оборудование, и инженерное обеспечение, то у нас должен быть хороший рабочий контакт с инженерным и ИТ департаментами. Идеальный случай, когда у заказчика в службе эксплуатации есть сформированное подразделение Data Center Managers, целиком отвечающее за машинный зал ЦОДа: за охлаждение и электропитание, за ИТ-оборудование т.е. весь замкнутый периметр машинного зала, за то, что сервис, предоставляемый ИТ-оборудованием, будет работать.

Приводит ли проект оптимизации ЦОДа к изменению бизнес-процессов в нем?

Решения по мониторингу аудиту и установке нового кондиционера — это не изменение службы эксплуатации заказчика. Это доработка какого-то кубика в рамках существующей инфраструктуры. Зачастую задача стоит более амбициозная — у заказчика может не хватать холода или требуется снизить счет за электричество. Мы можем сделать это разово, без изменения бизнес-процессов. Но если их не менять, то можно вернуться к прежней ситуации в течение года-полутора. Чтобы сохранять наилучшие показатели и специалисты службы эксплуатации могли поддерживать процесс непрерывных улучшений (Continuous improvements), мы внедряем DCIM, используя его как средство автоматизации бизнес-процессов, и под это внедрение идет изменение бизнес-процессов. Бизнес-процессы становятся более прозрачными и контролируемыми. Мы выстраиваем основные рабочие сценарии, которые могут возникнуть в процессе эксплуатации при текущих задачах, и они оказываются завязанными с рядом служб. Службы становятся интегрированными из-за единого подхода ко всем ресурсам. После этого уже можно использовать инструменты автоматизации, внедрение которой не приведет к сокращению количества персонала на объекте. Люди смогут выполнять свою работу более эффективно, и ее результат становится нагляден. Видно, например, кто из сотрудников подходил последним к каждой единице оборудования, кто и когда проводил ТО, вплоть до бухучета и амортизационной стоимости каждой единицы оборудования. У заказчика была такая потребность, и мы ее реализовали, вплоть до фиксации срока списания каждого сервера. Без внедрения комплекса DCIM решить такую задачу слишком сложно.

СПЕЦПРОЕКТ КОМПАНИИ SCHNEIDER ELECTRIC