Цифровой библиотекарь рассказывает о проблемах хранения и путях их решения
Питеру Коффи
Создать архив всего Интернета, причем не в текущем его виде, а в том, каким он был раньше, - задача не из простых. Для ее решения нужно не только довести до предела емкость хранилища, но и обеспечить свободный поиск информации при минимальных затратах. О масштабности такой проблемы и удивительной простоте ее решения в Internet Archive (www.archive.org) рассказал технологическому редактору Питеру Коффи цифровой библиотекарь и основатель этой некоммерческой организации Брюстер Кале.
По мере того как объемы корпоративных данных быстро приближаются к петабайтному рубежу, коммерческие организации все чаще сталкиваются с принципиально новым явлением. Расходы на работу вычислительных центров в последнее время зачастую превосходят стоимость установленного здесь оборудования, а в таких условиях команда Кале вполне может указывать путь в будущее, равно как и в прошлое.
Выдержки из интервью приводятся ниже. Более подробную аудиозапись разговора Коффи с Кале можно прослушать на странице подкастов InfraSpectrum сайта eWeek по адресу: go.eweek.com/ kahlepodcast.
Какой объем информации собран на данный момент в хранилищах Internet Archive?
Брюстер Кале: “У нас в основном
применяются стойки с Linux-машинами”
Брюстер Кале: Одна только Web-коллекция насчитывает у нас порядка 55 млрд. страниц, и без компрессии ее объем намного превысил бы 1 Пб. Даже при сжатии 2:1, которое применяется в нашем хранилище, первичные данные занимают порядка 1,6 Пб.
При дисковом хранении все сразу становится проще. Задержки больше не нужно считать на микросекунды. |
Вы применяете обычные технологии хранения на магнитных носителях?
Б. К.: Да. Сначала это были магнитные ленты, потом им на смену пришли вращающиеся диски. У нас в основном применяются стойки с Linux-машинами.
А как насчет встроенных дисковых массивов RAID?
Б. К.: Мы попытались пойти этим путем, но в наших условиях такие массивы показали себя не очень хорошо. Основу хранилища Internet Archive составляют кластеры под названием PetaBox, специально разработанные для хранения и обслуживания петабайтов информации. Что касается аппаратной части системы, то она состоит из стандартных компонентов с низким энергопотреблением, обеспечивающих высокую плотность монтажа, отличную надежность и простоту ремонта при минимальных капиталовложениях.
Нам удалось найти предельно экономичный путь в петабайтный мир. Это касается всех аспектов - и капитальных затрат, и стоимости обслуживания, и оплаты труда ремонтников, и расходов на электроснабжение и охлаждение.
Как оказалось, больше всего денег теряется именно в залах вычислительного центра.
Вы имеете в виду стоимость владения и эксплуатации оборудования?
Б. К.: В первую очередь я говорю о времени, которое уходит на развертывание оборудования. Мы уместили петабайты в мобильные контейнеры, где их легко хранить и обрабатывать на любой парковке. Мало у кого найдется сегодня достаточно места и кондиционеров для того, чтобы справляться с такими объемами данных. Системы охлаждения сейчас потребляют море энергии и очень мало подходят для обычных машин, ради которых, собственно, и устанавливаются. Гораздо больший эффект дает оптимизация воздушных потоков.
Что-то вроде корпуса Blue Gene, который IBM оптимизировала с точки зрения обдува компонентов?
Б. К.: Гораздо бoльшие проблемы возникают снаружи корпуса. Ведь нагретый воздух выбрасывается из машины в зал, откуда вновь всасывается для охлаждения этой же машины. Но он-то уже не холодный, а теплый! В таких условиях говорить о термодинамической эффективности просто наивно. Чтобы свести расходы на охлаждение к минимуму, а то и вовсе избавиться от них, нужно использовать воздух с улицы. Именно так мы и поступили при конструировании своих машин.
А на более высоком уровне мы решили применять Linux. Получилась очень простая система репликации данных с одной машины на другую, которая к тому же успешно справляется с выдачей информации внешним пользователям.
А что вы можете сказать о программной части такой "простой системы"? Если взглянуть на многолетние графики роста емкости хранилищ и пропускной способности подсистемы хранения, можно увидеть, что разрыв между ними десятилетиями растет. Сегодня в машину можно упаковать столько петабайтов, что их будет просто не вывести наружу.
Б. К.: После 1996 г. произошло много впечатляющих событий. Сначала мы имели дело с роботами магнитных лент, потом появились первые кластеры, им на смену пришел наш второй кластер. А сейчас мы развернули уже третье поколение кластеров.
А магнитные ленты что, были ужасны с точки зрения ввода-вывода?
Б. К.: Эту фразу вполне можно прервать на слове "ужасны". В магнитных лентах не было практически ничего хорошего.
Кроме дешевизны?
Б. К.: Они обходились не так уж и дешево... Жесткие диски лучше по всем показателям, именно они будут оставаться основной технологией хранения в нынешнем десятилетии.
А как насчет ввода-вывода?
Б. К.: Мы используем Ethernet. У нас на каждом компьютере по четыре жестких диска. Вплоть до прошлого года пропускная способность составляла 100 Мбит/с, а сейчас она доведена до 1 Гбит/с.
То есть вы используете хранение в IP-сети?
Б. К.: Это обычное решение на базе Linux. Здесь применяются процессоры, расположенные по соседству с жестким диском. Обычный кластер.
Такая схема используется и в Google?
Б. К.: И в Google, и в Hotmail, и в Yahoo.
Так что, просто Linux-машины с дешевыми дисками?
Б. К.: Они отличаются между собой разве что количеством центральных процессоров, объемом ОЗУ, параметрами жестких дисков и сетью. Во всем остальном эти машины практически идентичны. Большинство из нас отдает предпочтение одним и тем же процессорам. Мы используем главным образом двухъядерные кристаллы Athlon фирмы AMD. Вот только научиться управлять таким кластером оказалось делом непростым.
Эта новая технология появилась в арсенале таких тяжеловесов, как Sun Microsystems, EMC и Oracle в конце 1990-х гг. Кластеризация выглядела тогда намного проще, чем оказалась на самом деле.
В свое время Beowulf считалась чуть ли не стандартной технологией кластеризации для Linux, но у вас она так и не нашла применения?
Б. К.: Мы даже не пытались ее применить. Рискну погрешить против истины, но все же скажу: по-моему, эта технология хороша для научных приложений, где важно свести к минимуму запаздывания в связи между машинами. А такие программы опираются в основном на оперативную память, тогда как у нас вся информация хранится на дисках.
При дисковом же хранении все сразу становится проще. Задержки больше не нужно считать на микросекунды. А когда имеешь дело с миллисекундами, вполне достаточно Ethernet и обычных операционных систем. Если, конечно, все это нормально сконструировано. Нужно только правильно скомпоновать систему. А когда имеешь пару тысяч компьютеров с 8-9 тыс. дисков, как у нас, остается лишь убедиться, что все компоненты в полном порядке, и научиться справляться со сбоями.
Системы охлаждения сейчас потребляют море энергии и очень мало подходят для обычных машин, ради которых, собственно, и устанавливаются... В таких условиях говорить о термодинамической эффективности просто наивно. |
С технологическим редактором Питером Коффи можно связаться по адресу: peter_coffee@ziffdavis.com.