Три гиганта компьютерной индустрии - Hewlett-Packard, Oracle и ЕМС воспользовались скоплением "орак-лоидов", чтобы продемонстрировать в великолепном спектакле свое новое детище - первый коммерческий терабайтовый склад данных (data warehouse), базирующийся на технологиях Oracle, многопроцессорном сервере НР9000 и накопителях ЕМС серии Symmetrix. Чтобы наблюдатели могли ярче представить себе этот умопомрачительный объем, было сообщено, что терабайт информации, содержащий триллион знаков, в распечатанном виде занял бы миллион страниц. Настройка базы заняла 60 дней.

Вообще отличие складов данных от обыкновенных БД определяется следующим. Во-первых, в них хранится колоссальный объем совершенно разнородной информации не обязательно в табличной форме, как в обычных БД. Во-вторых, в складах данных критично время доступа: для эффективной работы с ними используют скоростные методы доступа, например, с применением битовых карт (bit mappinq). На презентации во время IOUW было продемонстрировано, что запрос, оформленный в обычной технике, выполняется 1 мин 50 с| а в битовой -всего 5 с.

Накопители корпорации EMC серии Symmetrix 5200

И, в-третьих, - многомерный характер запросов. Обычным БД свойственны плоские запросы, например "сколько сотрудников предприятия в возрасте до 40 лет отслу-жили армию"? Т. е. происходит конъюнкция разных условий поиска. В случае работы со складами данных запросы имеют более сложный и более интеллектуальный характер. Приводился такой пример обращения к БД (для ситуации с наводнением): ’сколько жителей поймы Миссисипи (США) через неделю подадут заявки в страховое агентство на возмещение ущерба от наводнения, если вода в реке будет прибывать с той же скоростью?". Для ответа необходима самая разно-родная информация: о географическом рельефе, о населении рассматриваемой местности, о прогнозе погоды, и т.п., что и определяет многомерность запроса.

Е.М.

Версия для печати