Цифровой библиотекарь рассказывает о проблемах хранения и путях их решения

Питеру Коффи

Создать архив всего Интернета, причем не в текущем его виде, а в том, каким он был раньше, - задача не из простых. Для ее решения нужно не только довести до предела емкость хранилища, но и обеспечить свободный поиск информации при минимальных затратах. О масштабности такой проблемы и удивительной простоте ее решения в Internet Archive (www.archive.org) рассказал технологическому редактору Питеру Коффи цифровой библиотекарь и основатель этой некоммерческой организации Брюстер Кале.

По мере того как объемы корпоративных данных быстро приближаются к петабайтному рубежу, коммерческие организации все чаще сталкиваются с принципиально новым явлением. Расходы на работу вычислительных центров в последнее время зачастую превосходят стоимость установленного здесь оборудования, а в таких условиях команда Кале вполне может указывать путь в будущее, равно как и в прошлое.

Выдержки из интервью приводятся ниже. Более подробную аудиозапись разговора Коффи с Кале можно прослушать на странице подкастов InfraSpectrum сайта eWeek по адресу: go.eweek.com/ kahlepodcast.

Какой объем информации собран на данный момент в хранилищах Internet Archive?

Брюстер Кале: “У нас в основном

 применяются стойки с Linux-машинами”

Брюстер Кале: Одна только Web-коллекция насчитывает у нас порядка 55 млрд. страниц, и без компрессии ее объем намного превысил бы 1 Пб. Даже при сжатии 2:1, которое применяется в нашем хранилище, первичные данные занимают порядка 1,6 Пб.

При дисковом хранении все сразу становится проще. Задержки больше не нужно считать на микросекунды.

Вы применяете обычные технологии хранения на магнитных носителях?

Б. К.: Да. Сначала это были магнитные ленты, потом им на смену пришли вращающиеся диски. У нас в основном применяются стойки с Linux-машинами.

А как насчет встроенных дисковых массивов RAID?

Б. К.: Мы попытались пойти этим путем, но в наших условиях такие массивы показали себя не очень хорошо. Основу хранилища Internet Archive составляют кластеры под названием PetaBox, специально разработанные для хранения и обслуживания петабайтов информации. Что касается аппаратной части системы, то она состоит из стандартных компонентов с низким энергопотреблением, обеспечивающих высокую плотность монтажа, отличную надежность и простоту ремонта при минимальных капиталовложениях.

Нам удалось найти предельно экономичный путь в петабайтный мир. Это касается всех аспектов - и капитальных затрат, и стоимости обслуживания, и оплаты труда ремонтников, и расходов на электроснабжение и охлаждение.

Как оказалось, больше всего денег теряется именно в залах вычислительного центра.

Вы имеете в виду стоимость владения и эксплуатации оборудования?

Б. К.: В первую очередь я говорю о времени, которое уходит на развертывание оборудования. Мы уместили петабайты в мобильные контейнеры, где их легко хранить и обрабатывать на любой парковке. Мало у кого найдется сегодня достаточно места и кондиционеров для того, чтобы справляться с такими объемами данных. Системы охлаждения сейчас потребляют море энергии и очень мало подходят для обычных машин, ради которых, собственно, и устанавливаются. Гораздо больший эффект дает оптимизация воздушных потоков.

Что-то вроде корпуса Blue Gene, который IBM оптимизировала с точки зрения обдува компонентов?

Б. К.: Гораздо бoльшие проблемы возникают снаружи корпуса. Ведь нагретый воздух выбрасывается из машины в зал, откуда вновь всасывается для охлаждения этой же машины. Но он-то уже не холодный, а теплый! В таких условиях говорить о термодинамической эффективности просто наивно. Чтобы свести расходы на охлаждение к минимуму, а то и вовсе избавиться от них, нужно использовать воздух с улицы. Именно так мы и поступили при конструировании своих машин.

А на более высоком уровне мы решили применять Linux. Получилась очень простая система репликации данных с одной машины на другую, которая к тому же успешно справляется с выдачей информации внешним пользователям.

А что вы можете сказать о программной части такой "простой системы"? Если взглянуть на многолетние графики роста емкости хранилищ и пропускной способности подсистемы хранения, можно увидеть, что разрыв между ними десятилетиями растет. Сегодня в машину можно упаковать столько петабайтов, что их будет просто не вывести наружу.

Б. К.: После 1996 г. произошло много впечатляющих событий. Сначала мы имели дело с роботами магнитных лент, потом появились первые кластеры, им на смену пришел наш второй кластер. А сейчас мы развернули уже третье поколение кластеров.

А магнитные ленты что, были ужасны с точки зрения ввода-вывода?

Б. К.: Эту фразу вполне можно прервать на слове "ужасны". В магнитных лентах не было практически ничего хорошего.

Кроме дешевизны?

Б. К.: Они обходились не так уж и дешево... Жесткие диски лучше по всем показателям, именно они будут оставаться основной технологией хранения в нынешнем десятилетии.

А как насчет ввода-вывода?

Б. К.: Мы используем Ethernet. У нас на каждом компьютере по четыре жестких диска. Вплоть до прошлого года пропускная способность составляла 100 Мбит/с, а сейчас она доведена до 1 Гбит/с.

То есть вы используете хранение в IP-сети?

Б. К.: Это обычное решение на базе Linux. Здесь применяются процессоры, расположенные по соседству с жестким диском. Обычный кластер.

Такая схема используется и в Google?

Б. К.: И в Google, и в Hotmail, и в Yahoo.

Так что, просто Linux-машины с дешевыми дисками?

Б. К.: Они отличаются между собой разве что количеством центральных процессоров, объемом ОЗУ, параметрами жестких дисков и сетью. Во всем остальном эти машины практически идентичны. Большинство из нас отдает предпочтение одним и тем же процессорам. Мы используем главным образом двухъядерные кристаллы Athlon фирмы AMD. Вот только научиться управлять таким кластером оказалось делом непростым.

Эта новая технология появилась в арсенале таких тяжеловесов, как Sun Microsystems, EMC и Oracle в конце 1990-х гг. Кластеризация выглядела тогда намного проще, чем оказалась на самом деле.

В свое время Beowulf считалась чуть ли не стандартной технологией кластеризации для Linux, но у вас она так и не нашла применения?

Б. К.: Мы даже не пытались ее применить. Рискну погрешить против истины, но все же скажу: по-моему, эта технология хороша для научных приложений, где важно свести к минимуму запаздывания в связи между машинами. А такие программы опираются в основном на оперативную память, тогда как у нас вся информация хранится на дисках.

При дисковом же хранении все сразу становится проще. Задержки больше не нужно считать на микросекунды. А когда имеешь дело с миллисекундами, вполне достаточно Ethernet и обычных операционных систем. Если, конечно, все это нормально сконструировано. Нужно только правильно скомпоновать систему. А когда имеешь пару тысяч компьютеров с 8-9 тыс. дисков, как у нас, остается лишь убедиться, что все компоненты в полном порядке, и научиться справляться со сбоями.

Системы охлаждения сейчас потребляют море энергии и очень мало подходят для обычных машин, ради которых, собственно, и устанавливаются... В таких условиях говорить о термодинамической эффективности просто наивно.

С технологическим редактором Питером Коффи можно связаться по адресу: peter_coffee@ziffdavis.com.

Версия для печати