Нет ничего нового под солнцем

Вряд ли кто из специалистов в области ИТ еще не знаком с интеллектуальными информационными технологиями. Со страниц специальных журналов не сходят статьи о хранилищах данных, OLAP-приложениях, управлении знаниями и других инструментах, относимых к классу BI (Business Intelligence).

Первые описания современных принципов построения информационных систем появились в XIV веке. В “Трактате о счетах и записях” монах Лука Пачиолли определил основные уровни обработки информации - оперативный и аналитический, назвав их Мемориалом и Главной Книгой. Он приводит следующее определение Мемориала: “В книгу эту купец записывает подробно все, что касается купли и продажи, не пропуская ни одной йоты: кто, что, когда и где, с разъясняющими обстоятельствами+ Книга эта ведется под напором дел+” [1].

Корпоративная фабрика информации (CIF)

Главная книга по Пачиолли - это основное хранилище информации, содержащее уже интерпретированные в соответствии с принятыми правилами и выбранной структурой регистров данные о финансово-хозяйственной деятельности компании. Промежуточный уровень обработки, который сейчас принято называть буферной зоной (staging area), он назвал Журналом. Лука Пачиолли дал также первые описания техники трансформации и перегрузки данных, поднял вопросы качества данных и предложил технологию его обеспечения - двойную запись.

“Нет ничего нового под солнцем”. Предложенная им система бухгалтерского учета - прототип аналитических систем.

Не стоит также утверждать, что новы интеллектуальные технологии, использующие информацию из хранилища данных для генерации новых знаний. Как правило, сегодня в бизнес приходит то, что ранее с успехом использовалось в военной практике, спецслужбами и в фундаментальной науке. Эти достижения обрели манящее название “дата майнинг” (data mining) и помогают теперь принимать решения и отыскивать новые закономерности в формировании потребностей клиентов.

Однако управляющий должен не только получить “поддержку принятия решений”, но и оценить их последствия. В этой “форме” была “отлита” одна из последних “серебряных пуль” BI - технология сбалансированных показателей (Balanced Score Card). Проведя многолетние исследования и пилотные проекты, Каплан и Нортон построили стройную систему измерения продвижения компании к намеченным целям [2].

И это тоже не ново. В течение длительного времени федеральными структурами многих государств создавались ситуационные центры и методы оценки достижений при управлении городами, регионами, штатами. Было разработано несколько методик формирования критериев. Например, лексиминный подход для объединения разнородных частных критериев в единый интегральный критерий эффективности. При этом чем правее находилась позиция частного критерия в интегральном, тем ниже был его приоритет.

Конечно, Нортон и Каплан системно подошли к решению задачи контроля продвижения к намеченным целям именно в интересах бизнеса. Помимо учета финансовых и натуральных показателей, уже давно применяемых в экономике, они включили в число показателей и оценку эффективности готовности к инновациям основного ресурса предприятия - персонала и качество исполнения операций на предприятии. Причем им удалось найти способ балансирования приоритетов столь разнородных показателей.

Его Величество Стандарт

Но долгое время интеллектуальные технологии оставались красивой и дорогой игрушкой. Что же явилось моментом их прорыва на “рабочие столы” наших компьютеров?

Технология ждет своего часа, как зерно - света, влаги и тепла. Получив их, она раскрывается: сразу во многих головах рождается одна и та же мысль. В этот момент не важно, кто изобрел лампочку, радио или периодическую таблицу химических элементов. Она внезапно попадает в зону массового спроса, массовой конкуренции, где нужно получить много простых и дешевых решений, использующих дорогую и сложную технологию. И здесь господин один - Его Величество Стандарт.

В его королевстве становится важна не сама информация, а протоколы, в соответствии с которыми она обрабатывается и передается. В этом смысле знаменательным можно считать событие, произошедшее 25 сентября 2000 г. В этот день организации MDC (MetaData Coalition, www.mdcinfo.com) и OMG (Object Management Group, www.omg.org), разрабатывающие два конкурирующих стандарта в области интеллектуальных технологий для бизнеса - OIM (Open Information Model) и CWM (Common Warehouse Metamodel), приняли решение объединить усилия под управлением OMG.

Это один из поворотных моментов в истории интеллектуальных технологий, который пользователи ощущают сегодня: единые принципы, структуры, форматы определяют не только комфорт пользователя, но и стоимость соответствующего программного обеспечения. Теперь мы имеем “общую метамодель хранилищ данных” (CWM) [3], объединяющую достижения CWM и OIM.

CWM включает описание базовых элементов объектной модели, реляционных отношений, языка XML, структуры семантики предметной области, архитектуры OLAP, добычи данных, технологии перегрузки данных и некоторых расширений.

Хранилища данных - точка прорыва BI

Но одними стандартами нельзя обеспечить практической пользы. “Первыми по-настоящему эффективными с точки зрения соотношения затрат и полученных выгод типов интеллектуального программного обеспечения стали хранилища данных”[4]. Они позволили получить первый практически ценный результат от усилий, длительное время направленных на создание системы стандартов. Поэтому основной стандарт инфраструктуры интеллектуальных технологий и называется “Общая метамодель хранилищ данных”.

Почему же именно хранилища данных стали точкой прорыва интеллектуальных информационных технологий?

Дело в том, что модель бизнеса, завоевавшая себе место под солнцем, подразумевает: каждая отдельная задача должна быть решена с максимальным эффектом. Однако отсюда не следует общая эффективность информационной инфраструктуры в целом, тем более качество порождаемой ею информации. Приоритет получают те задачи, которые способны сегодня и сейчас обеспечить успех и прибыльность предприятия. При этом часто страдают стратегически важные ИТ-инициативы.

Социально-культурный контекст способен усилить негативные последствия или в определенной степени нивелировать его. (К сожалению, в жизни чаще встречается первое.) Разные группы разработчиков, находясь в оппозиции, используют все доступные средства для укрепления своих позиций - от экзотических программно-технических средств до корпоративной политики конфиденциальности. В результате информационная инфраструктура предприятия становится “гербарием разнородного железа и софта”, обеспечивающего покой и будущее авторов приложений. В таком виде корпоративная информационная инфраструктура представляет собой семантически разорванную среду: из различных департаментов могут идти противоречащие сводки о состоянии одних и тех же показателей, иногда даже называемых по-разному, быть представлены в несопоставимом виде, одна и та же работа может выполняться по несколько раз и т. д.

В этой ситуации родившаяся в конце 90-х идея хранилищ данных позволила управляющим увидеть свет в конце туннеля. Их надежда на собранную воедино из осколков картину управляемого ими бизнеса обрела реальные черты. Ведь управление страстно хочет стать наукой, а науке нужна повторяемость, нужны данные, нанизанные на ось времени. Приложения же, обслуживавшие оперативные процессы, обеспечивают их неразрывность, отражают “поверхность” деятельности, то, как все происходило “под напором дел”. Нужна была новая информационная реальность, позволяющая понимать прошлое, анализировать настоящее и прогнозировать будущее.

Новая информационная реальность - CIF

Несколько лет назад один из отцов хранилищ данных Билл Инмон (Bill Inmon, www.billinmon.com) ввел в оборот понятие корпоративной фабрики информации (Corporate Information Factory, CIF). Концепция CIF объединила оперативные приложения, накопители оперативных данных (Operational Data Store, ODS), центральное хранилище данных, витрины данных (Data Mart) и системы анализа данных (Data Mining) в единый процесс выработки и потребления информации на предприятии.

В CIF оперативные приложения служат для управления частными процессами. ODS накапливают в себе временные срезы различных процессов, происходящих на предприятии, и согласуют их между собой. ODS часто используется как оперативный источник информации. Как правило, ODS хранят значительно более детализированную информацию, чем хранилище, но за меньший период времени - от полугода до года, так как для доступа к данным в нем не используются предварительно рассчитываемые агрегаты.

Хранилище данных - это накопитель исторической информации о жизнедеятельности компании. Данные в нем представлены, как правило, в виде денормализованных многомерных структур - “звезд” или “снежинок”. В рамках CWM многомерные структуры описываются пакетом OLAP, содержащим определения таких понятий, как куб (Cube), размерность (Dimension) и др.

Витрины данных - это многомерный экстракт хранилища данных, предназначенный для анализа определенной предметной области и доставки аналитических данных до потребителя.

Верхним эшелоном CIF являются системы добычи и управления знаниями. В CWM они описываются пакетом “Data Mining”.

Литература

1. Лука Пачиолли. Трактат о счетах и записях. М.: Финансы и статистика, 1994.

2. Kaplan R., Norton D. The Balanced Scorecard: translating strategy into action. Boston, Harvard business School press, 1996.

3. Common Warehouse Metamodel (CWM) Specification. OMG, 2001.

4. Adrienne Tannenbaum “Metadata Solutions” Addison-Wesley 2002.

К автору, генеральному директору фирмы “Алеф Консалтинг & Софт”, можно обратиться по адресу: evgeny@alef.ru.

(Продолжение следует)