ЭПИЦЕНТРЫ

Питер Коффи

Нынешний август вновь преподнес массу сообщений о событиях годичной давности, когда без электричества остался весь северо-восток США. Вот только многие из них по-прежнему выглядят однобоко. Основное внимание во всех этих сообщениях уделяется традиционным проблемам технологии электропередачи и управления ею. А ведь сначала, если вспомнить, высказывались подозрения (пусть даже отчасти истерические), что первопричиной перебоев, затронувших 50 млн. человек, мог стать (или по крайней мере усугубить положение) вирус по имени Blaster.

Осведомленность порой приводит к забвению опасности - таков самый тревожный вывод, который остается за рамками сегодняшнего анализа событий, произошедших год назад. Города без света, слава Богу, пока еще редкость, но за минувшие 12 месяцев нас буквально ошеломило многомиллионное, если не сказать больше, нашествие бластеров, сассеров и других вредоносных инфекций. Бороться с ними было бы гораздо легче, если бы наши вычислительные решетки справлялись с битами хоть чуть-чуть лучше, чем электрические сети - с ваттами.

Давайте попробуем разобраться, как все происходило в августе прошлого года. Чтобы оставить людей без света, не нужно было никакой злодейской вражеской атаки. Мэттью Уолд в своей статье, которая была опубликована 10 августа в New-York Times, прямо заявил: "Такую скорость отключения электричества в тот день можно объяснить лишь тем, что сотни компонентов срабатывали именно так, как им было предписано программой работы". Когда я ближе познакомился с результатами анализа тех событий, у меня возникло подозрение, что инженеры и операторы приняли множество не связанных между собой консервативных решений и это в конце концов привело к совершенно неожиданным последствиям.

В своей статье Уолд приводит слова Дугласа Воуды - вице-президента международной группы компаний АВВ, объединяющей в своих рядах несколько энергетических гигантов мира. Тот высказал твердое убеждение, что защищать отдельные ресурсы - далеко не то же самое, что защищать систему в целом. Между этими направлениями, по мнению специалиста, всегда существует конфликт. Такое различие стоило бы учитывать и создателям ИТ, особенно на фоне быстро расширяющегося использования сервисов. Здесь, видимо, тоже нужно заново подойти к операционному описанию целостности системы, сделать так, чтобы жизненно важные бизнес-процессы защищались не менее надежно, чем отдельные компоненты ИТ.

Операторам ИТ просто необходимо выйти за рамки своих систем и посмотреть, чему можно поучиться на опыте крупномасштабных перебоев в работе других сетей.

Аналитики сегодня сходятся в том, что отказ энергосистемы в августе прошлого года был вызван срабатываниями реле зоны 3, каждое из которых в точности выполнило заложенную в него программу. Главное назначение этих резервных компонентов - обнаружить неполадки в удаленных частях сети и принять соответствующие корректирующие меры. Срабатывают они, как правило, с довольно большой задержкой - от полусекунды до трех.

Такое запаздывание выглядит довольно большим лишь по сравнению с компонентами зоны 1, которые реагируют практически мгновенно, и зоны 2, где задержка составляет от трети до половины секунды. Впрочем, и в третьей зоне (по необходимости) скорость срабатывания реле выбрана такой, что оператор просто не в силах вмешаться в процесс управления. А в этих условиях особенно важным становится заблаговременное прогнозирование поведения большой системы в самых разных ситуациях.

Для операторов энергоснабжения давно уже не секрет, что совокупное функционирование разрозненных систем безопасности чревато широкомасштабным хаосом. Еще в 1997 г. координационный комитет энергосистем западной части США опубликовал результаты анализа перебоев в энергоснабжении этого региона, которые возникли предыдущим летом. "Следует признать, - говорится в документе, - что временная задержка реле зоны 3 установлена достаточно длительной для четкой координации работы находящихся под их управлением защитных устройств". И далее: "Определить для зоны 3 такую длительность запаздывания, которая бы исключила возможность нескоординированной работы, может оказаться довольно трудно".

Запомним это.

Операторам ИТ просто необходимо выйти за рамки своих систем и посмотреть, чему можно поучиться на опыте крупномасштабных перебоев в работе других сетей. Сторонники "решеточных" вычислений стремятся имитировать структуру систем электроснабжения, по которым энергия надежно передается оттуда, где ее избыток, туда, где она нужна в данный момент. Время реакции при этом измеряется миллисекундами.

Но и здесь нельзя забывать о комплексных перебоях, равно как и о простых, совершенно очевидных сбоях. Следует учитывать также, что в вычислительных решетках эта проблема усугубляется гораздо более коротким рабочим циклом, да и сообща использовать вычислительные мощности намного сложнее, чем распределять электроэнергию между потребителями. Ватты - они всегда ватты, а вот вычислительные циклы имеют великое множество разновидностей, им присуще колоссальное число взаимосвязей, определяющих методы обработки данных.

Когда говорят о новом, еще более современном стандарте Web-сервисов - взять хотя бы спецификацию WS-Addressing, которая только что сделала очередной крупный шаг вперед, - одного только обещания, что она хорошо работает, мне мало. Я сразу же задаюсь вопросом: а как она выдерживает перебои?

С редактором Питером Коффи можно связаться по адресу: peter_coffee@ziffdavis.com.

Версия для печати