Эдуард Пройдаков

Вот уже пять лет я почти каждый день свое свободное время провожу над составлением англо-русского словаря компьютерных терминов и сокращений. Дело это было бы практически безнадежным, если бы мне не удалось объединиться с человеком феноменальной работоспособности  -  Леонидом Абрамовичем Теплицким. Безнадежным потому, что ежедневно в нашей предметной области рождается c десяток устойчивых терминов и тьма аббревиатур. Следовательно, 300 новых слов в месяц, 3600  -  в год. Трудность задачи даже не в том, чтобы новые слова отловить, а в том, чтобы понять, что данное слово значит, и придумать для него перевод. Словарь этот в одной из версий уже был опубликован издательством "СК Пресс". Сейчас на www.computer-museum.ru выставлена его Интернет-версия.

Раздумывая над словами, приходишь к выводу, что некоторые термины потрясающе загадочны. Так, например, я давно хотел понять, что же такое Data Mining (DM). Дословно эти слова означают "добыча, раскопки, извлечение данных". По контексту многочисленных статей понятно, что добываются эти данные из баз данных (БД), где они как бы свалены в кучу. Понятно также, что добываются они не просто так, а для поддержки принятия решений (DS). Каких  -  не суть важно. Схема примерно такая:

Данные - информация - Решения и действия

Сопутствующие термины:

Обнаружение знаний (knowledge disco-very)  -  нахождение скрытых структур (patterns), которые преобразуют данные в информацию. Это поиск регулярностей среди групп записей. Обнаружение знаний делится на прямое и косвенное. В косвенном не делается предварительных предположений, данные говорят сами за себя. Прямое  -  пытается объяснить или разбить на категории конкретные поля БД, косвенное не задает конкретных полей.

Использование знаний (knowledge deployment)  -  применение найденных знаний для достижения преимуществ в бизнесе.

Технология DM придумана для решения вопросов бизнеса, которые программирование на SQL и средства Query/OLAP не могут решить адекватно.

 

Зачем нужна добыча знаний?

Пример из области финансов: “Кто из ваших заказчиков имеет наибольшую предрасположенность отозваться на предложение вашей новой Золотой кредитной карты?”.

В телекоммуникации: “Кто из заказчиков наиболее вероятно перейдет к конкурентам в условиях кризиса?”.

В дистрибуции: “Через какой канал и кому следует предлагать эти продукты?”.

В розничной торговле: “Какие продукты следует продвигать со скидками, чтобы это привело к росту продаж наиболее прибыльных линеек?”;

“Кто наши наиболее выгодные покупатели, какова потенциальная прибыль от них и каков риск их истощения?”.

Замечание: первые два примера относятся к области простых прогнозов, которые составляют около 75% сегодняшнего применения data mining (так называемый predictive modeling).

В случае, если с помощью DM удается ответить на поставленный вопрос, фирма сможет увеличить прибыль, повысить уровень обслуживания клиентов (предвидеть запросы, лучше удовлетворять спрос) и добиться конкурентного преимущества на рынке.

Интересный пример использования DM привел Кирилл Резник, президент фирмы “Контекст”, разработавшей пакет “ДА-система”: “У нас была возможность поработать с крупной московской фирмой, производящей рабочую одежду. Они выставляли 50 тыс. счетов в квартал. Заказчики приезжали к ним со всей России. Вдруг они обнаружили, что примерно 30% счетов не оплачивается. А это  -  потраченное время на работу с клиентом, каталогами и т. д., поэтому фирма захотела узнать, какие параметры влияют на оплату счета. Было обнаружено, что очень сильно различаются клиенты из Москвы, Московской области и регионов. Клиенты из регионов приезжали под выходные, чтобы в Москве погулять, а в понедельник - вторник занимались делом. Клиенты из Москвы выставляли счета в основном в среду - четверг, а из Московской области  -  во вторник - среду - четверг. Мы построили иерархию регионов лидеров и регионов аутсайдеров. Например, Бурятия и республика Саха-Якутия всегда на протяжении четырех лет аккуратно оплачивали счета. В результате мы определили, что если клиент приходит в пятницу и выставляется счет на сумму от и до, то с вероятностью 99% счет не будет оплачен. Это не значит, что на таких людей вообще не нужно тратить время, но его можно тратить более эффективно”.

Отметим, что есть области бизнеса, где большие фирмы не могут конкурировать с маленькими. Последние знают предпочтения каждого клиента и имеют свои индивидуальные подходы к нему. Первый шаг к повышению качества обслуживания  -  запись всего, что делает клиент. Это обеспечивают OLTP-системы. Следующий шаг  -  данные из различных систем должны быть собраны для анализа  -  тут на помощь приходят технологии хранилищ данных. Наконец, важнейший этап  -  данные должны быть проанализированы и на основании этого анализа предприняты действия, полезные для бизнеса. Это область DM.

По утверждению американских экспертов, DM и “умные” агенты (intelligent agents) останутся главной движущей силой эволюции систем поддержки решений в течение пяти следующих лет.

 

Поиск структур с помощью Data Mining

Допустим, у нас есть таблица с данными о предыдущих продажах десятка продуктов по месяцам.

Целевая проблема маркетинга: определить, какой из столбцов таблицы содержит значения, в наибольшей степени коррелирующие с последним ее столбцом.

Это простой пример с 10 строками и 12 колонками; вообразите пример со 100 000 строк и 100 колонками.

Вот несколько из множества определений Data Mining.

Data Mining  -  это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для реализации.

Data Mining  -  это процесс анализа, выделения и представления детализированных (detailed data) данных неявной конструктивной информации для решения проблем бизнеса (NCR).

Data mining  -  это процесс выделения (selecting), исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (SAS Institute).

Data mining  -  это процесс, цель которого  -  обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс [применение] статистических и математических методов (Gartner Group).

Data mining  -  это процесс автоматического выделения действительной, эффективной, ранее неизвестной и совершенно понятной информации из больших баз данных и использование ее для принятия ключевых бизнес-решений.

На бытовом уровне это звучит примерно так: “Вы мучаете данные, пока они не признаются”.

Отметим, что процесс обнаружения знаний не полностью автоматический  -  он требует участия пользователя. Короче говоря, пользователь должен знать, что он ищет, основываясь на собственных гипотезах. В итоге часто вместо подтверждения имеющейся гипотезы процесс поиска вызывает появление новых гипотез. Все это обозначается термином discovery-driven data mining (DDDM), и термины Data Mining, knowledge discovery в общем случае относятся к DDDM.

Следовательно, можно купить тот или иной пакет для DM, но если у вас никто не умеет этим пользоваться, то результат не будет получен никогда.

К своему удивлению я обнаружил, что DM  -  это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Некоторые методы перечислены ниже:

- объединение (association, иногда используют термин affinity, означающий сходство, структурную близость)  -  выделение структур, повторяющихся во временной последовательности. Обнаруживает правила, по которым присутствие одного набора элементов коррелирует с другим. Этот метод часто применяется для анализа рыночной корзины пакетов продуктов, при разработке каталогов, перекрестном маркетинге. Цель  -  найти закономерности среди большого числа транзакций. Эта информация может использоваться для модификации расположения полок и последовательности товаров в торговом зале. Классический пример из американской жизни, когда в одном из универсамов обнаружили, что по субботам молодые отцы, купив памперсы и исполнив таким образом свою миссию, покупают пиво. Расположив полку с пивом рядом с полкой памперсов, универсам в четыре раза увеличил продажу пива по субботам;

- анализ временных рядов (sequence-based analysis, другое название  -  sequential association)  -  позволяет найти временные закономерности между транзакциями. Например, можно ответить на вопрос, покупки каких товаров предшествуют покупке данного вида продукции. Используется при анализе целевых рынков, управлении гибкостью цен, управлении циклом работы с заказчиком (Customer Lifecycle Management);

- кластеризация (clustering)  -  группировка записей, имеющих одинаковые характеристики, например, по близости значений полей. Используется для сегментации рынка и сегментации заказчиков. Могут использоваться статистические методы либо нейросети. Кластеризация часто рассматривается как первый необходимый шаг для дальнейшего анализа данных;

- классификация (classification)  -  отнесение записи к одному из заранее определенных классов. Используется, например, при оценке рисков при выдаче кредита;

- оценивание (estimation);

- нечеткая логика (fuzzy logic);

- статистические методы, позволяющие находить кривую, наиболее близко расположенную к набору точек данных;

- генетические алгоритмы (genetic algorithms) (см. PC Week/RE, № 19/99, с. 19);

- фрактальные преобразования (fractal-based transforms);

- нейронные сети (neural networks)  -  данные пропускаются через слои узлов, “обученных” распознаванию тех или иных структур (см. PC Week/RE, № 13/99, с. 26). Используются для анализа предпочтений и целевых рынков, удержания заказчиков, а также для обнаружения мошенников.

К DM можно добавить еще визуализацию данных  -  построение графического образа из данных, использование цвета. Это помогает при общем анализе данных увидеть аномалии, структуры, тренды. Частично к DM примыкают деревья решений и параллельные базы данных.

Из перечисленного видно, что эта область слишком обширна, чтобы один человек мог освоить все методы и быть специалистом во всей этой области.

Отмечу, что DM тесно связана (интегрирована) с хранилищами данных (Data Warehousing, DW) и можно сказать, что DW обеспечивают работу Data Mining, а Data Mining оправдывают DW. Например, когда для DM требуются новые данные, их добавляют через DW. В России уже есть крупные банки с БД объемом более 200 Гб и уникальная государственная организация, накопившая более 800 Гб данных. Понятно, что без применения инструментария DM вся эта груда лежит мертвым грузом. Отсюда видна и прямая дорога к тому, что именуется таким модным термином, как “ситуационная комната”.

 

Как начать внедрение методов DM

Сейчас все более-менее научились собирать данные и освоились с оперативным учетом. Я отмечаю нарастание активности в использовании аналитических методов, но это, возможно, массово придет к нам в следующем году или даже чуть позже, но готовиться следует уже теперь.

Заниматься DM имеет смысл при наличии на рынке достаточно жесткой конкуренции, так как это весьма дорогостоящее удовольствие. Начать нужно с определения понятных бизнес-целей и разработки простого пилотного проекта. При этом необходимо хорошо знать свой бизнес. Следует привлечь пользователей, чтобы сделать DM частью всего бизнес-процесса. Сотни инструментов поддерживают DM или объявляют об их поддержке. Тут бы и заняться рассмотрением и сравнением этих инструментов, но я на этом свои “раскопки” закончу и с удовольствием передам эстафету тем, кто “докопался” до более глубоких слоев.