Системы длЯ предприЯтий

 

Scenario превосходит BusinessMiner, предлагая лучшие средства анализа данных и представления результатов

 

Два новых продукта  -  Scenario 1.0 фирмы Cognos и BusinessMiner 4.0 фирмы Business Objects S.A.  -  дают в руки пользователей ПК новейшие методы добычи информации.     В прямом соревновании со своим конкурентом Scenario уверенно извлек больше полезной информации, и мы присудили ему призовое место.

Слева: мощные графические представления пакета Scenario позволяют обнаружить информационные зависимости с первого взгляда.

Справа: окна BusinessMiner менее информативны, чем в Scenario, зато в нем больше

     статистических графиков

Оба эти продукта удобны, достаточно дешевы и привлекательны (особенно по сравнению с такими дорогостоящими инструментами анализа, как Intelligent Miner корпорации IBM или MineSet фирмы Silicon Graphics), поэтому серьезный специалист по анализу данных должен использовать один из них.

 

В пакете Scenario продуманный интерфейс сочетается с мощным, информативным графическим представлением данных без ущерба для мощи статистического аппарата, необходимого инструментам извлечения информации. Мы присвоили этому продукту титул “Выбор аналитика PC Week Labs”; его нетривиальный интерфейс  -  один из самых великолепных среди пакетов программ, с которыми мы познакомились в этом году.

 

BusinessMiner в отличие от Scenario не имеет таких же средств для создания статистически эквивалентных выборок и в нем нет метода “осторожного” моделирования. Зато он включает простые средства прогнозирования и у него намного более широкий спектр возможностей визуализации результатов.

 

В Тестовом центре PC Week Labs исследовались законченные версии обоих продуктов. Scenario был выпущен в конце апреля по цене $695 и работает только под Windows 95 и Windows NT 4.0. BusinessMiner появился в феврале и работает под Windows 95, Windows NT и Windows 3.1 (с расширением Win32s). Цена BusinessMiner  -  $995 (либо $495, если он приобретается в комплекте с другими инструментами фирмы Business Objects).

 

Хотя в названии пакета BusinessMiner и присутствуют слова “версия 4.0”, на самом деле это его первая коммерческая версия.

 

Добыча  золота из  данных

 

И в Scenario, и в BusinessMiner реализованы схожие методы статистического анализа, основанные на деревьях решений; хотя в BusinessMiner используется метод индексов Джини (Gini), позволяющий обрабатывать смеси числовых и текстовых данных более гибко по сравнению с методом CHAID (Chi-squared Automatic Interaction Detection  -  автоматическое определение зависимостей по критерию хи-квадрат), используемым в пакете Scenario.

 

Значительнее эти пакеты различаются в возможностях импорта данных. BusinessMiner прекрасно работает с подсистемой запросов к базам данных BusinessObjects (нам нужно было только щелкнуть по кнопке с надписью BusinessObjects, чтобы получить оттуда текущий набор данных), и в него легко импортировать данные из файлов пакетов Access, Excel, SPSS или обычные текстовые файлы. К сожалению, в нем отсутствуют средства для организации выборок данных, поэтому нам пришлось заниматься ручным подбором и объединением наборов записей, прежде чем мы смогли набрать достаточный объем исходного материала.

 

В BusinessMiner есть также гибкие средства для обработки пропущенных данных: можно либо исключить из анализа неполные записи, либо заменить отсутствующие данные наиболее вероятными их значениями, вычисленными по данным из других известных полей. Кроме того, продукт прекрасно работает с символьными полями (обычными текстовыми полями информационных записей)  -  в BusinessMiner, в отличие от Scenario, у нас не возникло проблем с анализом зависимостей для текстовых полей, содержащих учетные данные и категорию пользователя.

 

Scenario поддерживает импорт наборов данных из Impromptu  -  запросного инструментария фирмы Cognos, обеспечивающего связь с корпоративными БД, а также из текстовых файлов, файлов Excel, dBASE и Paradox, но не из файлов Access или SPSS, т. е. отсутствуют именно те возможности, которые мы хотели бы в нем видеть.

 

В отличие от BusinessMiner при обработке больших наборов данных в пакете Scenario можно получить наборы данных большого объема со случайно сгенерированными данными. Если выборка не была представительной (в зависимости от типа запрошенного анализа), Scenario выдавал нам соответствующие предупреждения. Для грубой оценки перекрестных связей можно создать новое семейство выборок с помощью всего одной команды. Подобные средства работы с выборками по достоинству оценят пользователи, имеющие дело с достаточно большими (от 10 тыс. до 1 млн. записей, в зависимости от мощности процессора) наборами данных.

 

Как и в BusinessMiner, в Scenario предлагается несколько вариантов обработки пропущенных значений, и в пакете есть возможность после выполнения операции импорта провести группирование данных в так называемые мета-параметры (например, объединить несколько близко расположенных городов в один регион).

 

Наиболее существенный недостаток Scenario связан с тем, что в нем нельзя проводить анализ по символьным (текстовым) полям, которые в Scenario называются категорированными данными. Однако, если текстовые поля коррелируют с уже обработанными (“извлеченными”) полями, пакет обеспечивает их полную поддержку.

 

В отдельных случаях анализа для обхода этого ограничения нам пришлось выполнять ручной поиск и заменять символьные строки, представленные трехзначным текстовым выражением типа “низкий риск”, “средний риск” и “высокий риск”, соответствующими числовыми значениями. Это основное (и, безусловно, устранимое) ограничение пакета Scenario. Фирма Cognos информировала нас, что эта проблема сейчас решается и в следующую версию продукта будут внесены дополнения.

 

Возможности извлечения  данных

 

Прекрасные мастера Scenario и его отличная документация были нашими путеводителями в процессе поиска зависимостей, помогая избежать таких распространенных ловушек статистической обработки данных, как выявление зависимостей, не имеющих статистической значимости.

 

Начали мы с выбора режима исследования; в пакете их три: Certify (сертификация данных), Test (статистические тесты) и Explore (исследование). В этих режимах автоматически инициируются различные тесты для контроля и установки доверительных оценок, минимального размера сегментов, по которым распределяются анализируемые переменные, и уровней значимости в виде доверительных интервалов (p-values). Затем в окне графического представления Scenario мы могли наблюдать взаимосвязи между различными факторами и распределение данных по сегментам. В BusinessMiner имеется только один режим, аналогичный режиму Explore пакета Scenario.

 

В Scenario мы могли произвольным образом углубляться в поиск зависимостей, проверять точки, на которых базируется решение, и видеть, какие из них не принадлежат узлам дерева решений. В этом пакете очень легко находить корреляцию параметров и быстро переключаться между ними; при этом достаточно взглянуть на графическое окно, чтобы визуально оценить такие основные характеристики, как средние значения, среднеквадратичные отклонения, размер выборки или квартили.

 

К сожалению, из Scenario нельзя экспортировать данные другим способом, кроме как через буфер обмена Windows (cut and paste), из-за чего нам приходилось заниматься дополнительной работой всякий раз, когда возникала необходимость сохранить данные.

 

В BusinessMiner, по сравнению со Scenario, экраны анализа данных менее содержательны. Хотя для заданного входного набора программа и позволяет сегментировать данные и строить дерево факторов, в ней нет такого же представления для визуализации данных или для просмотра таблиц с выборками, как в Scenario. В BusinessMiner нет также процедур статистической проверки и балансировки дерева факторов, например, мы “спокойно” могли заняться анализом ветки с данными, не имеющими статистической значимости.

 

Впрочем, в BusinessMiner имеются другие полезные функции, которых нет в Scenario,  -  возможность простого однофакторного прогнозирования, широкий выбор гистограмм и графиков распределений, аппроксимируемых гладкими кривыми. Кроме того, если в BusinessMiner в окне с изображением дерева данных выделить узел, графики автоматически перерисовываются, обеспечивая экономию времени.

 

Как и в Scenario, в BusinessMiner нельзя экспортировать отдельное подмножество данных в другую программу иначе, как через буфер обмена.

 

Тимоти Дик (PC Week Labs)

 

РЕЗЮМЕ ДЛЯ РУКОВОДИТЕЛЕЙ

 

Scenario 1.0

 

Пакет Scenario переводит “добычу данных” на новый качественный уровень и позволяет выполнять статистический анализ скрытых зависимостей с легкостью, доступной каждому, без той “расплывчатости” задачи, когда никому не хочется ею заниматься.

 

+ Ясная и понятная с первого взгляда визуализация данных; прекрасный интерфейс и отличные печатные руководства; мощные средства для работы с выборками; конкретизированные режимы анализа.

 

-- Не поддерживается анализ для нечисловых полей; нет функции прогнозирования; отсутствуют точечные диаграммы (scatter plot) и другие общепринятые в статистике графики.

 

Фирма Cognos, Оттава, Канада, (613) 738-1440, Web-адрес: www.cognos.com.

 

Официальным дистрибьютором продуктов фирмы Cognos в России является компания ArguSoft,

 

телефон: (095) 215-3608.

 

BusinessMiner 4.0.

 

Пакет BusinessMiner обеспечивает полностью автоматизированный анализ данных, однако не позволяет работать с большими наборами данных, а также углубляться в анализируемые данные для поиска ответов на интересующие вопросы. Тем не менее в нем присутствуют средства несложного прогнозирования, выделяющие его среди конкурирующих продуктов.Фирма Business Objects,

 

Сан-Хосе, шт. Калифорния,

 

телефон: (408) 953-6000,

 

Web-адрес: www.businessobjects.com.

 

+ Тесная связь c ПО BusinessObject; отличная поддержка для нечисловых полей; функция несложного прогнозирования, а также широкий выбор статистических графиков.

 

-- Не поддерживаются выборки; практически нет процедур статистического контроля и балансировки решений; непросто идентифицировать граничные точки данных; нельзя наблюдать информацию из базы данных в виде узлов дерева решений.

Версия для печати