Извлечение данных из ”Паутины”

В то время как многие производители ПО сосредоточились на переносе данных из прикладных программ на Web-страницы, программа CenterStage фирмы OnDisplay впервые решает еще более важную задачу  -  извлечение данных с Web-страниц обратно в прикладные программы.         

CenterStage позволяет разработчикам преобразовывать Web-данные в таблицу

Тестовый центр PC Week Labs тестировал раннюю бета-версию программы CenterStage, использующей сложную технологию разбора и распознавания образов для считывания с Web-страниц такой информации, как цены на акции, прайс-листы и процентные ставки. Полученные данные могут быть импортированы в таблицы и легко обработаны настольными приложениями и базами данных.

Для корпораций, часто принимающих важные для бизнеса решения на основе информации из Web, CenterStage может автоматизировать длительный и чреватый ошибками процесс копирования информации с Web-страниц в прикладные программы. Это ПО также можно использовать как основу для создания программ, работающих на Web-узлах и передающих пользователям данные в упрощенной форме.

Правда, CenterStage не является готовым решением для создания серверных приложений. Объединение CenterStage c Web-сервером или корпоративной базой данных требует значительных затрат времени на программирование.

Кроме того, многопользовательская версия CenterStage, которая необходима для развертывания приложений в рамках корпорации или в Internet, слишком дорога: она стоит от $9995 до $39 995.

Выпущенная в начале апреля бета-версия, которую мы тестировали, включает три основных компонента: клиент под названием WebAnalyst, средство разработки PageAgent Builder и ядро системы PageAgent Engine, занимающееся разбором и выдачей информации.

Используя PageAgent Builder, мы создали программы-агенты, которые способны извлекать цены на акции из системы NASDAQ, заголовки новостей из PC Week Online (см. рис.) и местные данные о погоде из метеослужбы Yahoo Weather.

Затем мы воспользовались WebAnalyst для запуска программ-агентов, просмотра полученной информации и экспортирования данных в Excel.

Создание агента

Создать объект в программе Builder было довольно просто. Используя браузер, мы добрались до Web-страницы, содержащей интересующую нас информацию, выделили нужную ее часть, а затем нажали на кнопку, чтобы создать образец этой информации.

Создаваемый образец  -  это обобщенное представление о формате данных. Например, информация о курсе акций NASDAQ всегда содержит одни и те же столбцы в одном и том же порядке, невзирая на то, о какой акции идет речь. А как только образец задан, PageAgent Engine может выбрать любой фрагмент информации, независимо от того, где он появляется на странице и какой текст или изображения его окружают.

Некоторые образцы было сложнее создавать. Страница NASDAQ (которая рассматривается в руководстве к программе) была понята легко, но со страницей PC Week Online пришлось повозиться. Для сложных образцов Builder использует представление под названием “структурированный HTML”, это, по существу, переработанный исходный HTML-файл. Для работы с этой страницей пришлось приобрести некоторые навыки, но в итоге мы более точно задали участок, с которого требуется считывать данные.

Когда образец и таблица созданы, Builder генерирует программу-агент на языке JavaScript. Впоследствии этот агент может быть использован как основа для более сложных Web-приложений (ведь его можно вызывать из других сценариев) или применен непосредственно в программе WebAnalyst.

С помощью WebAnalyst мы смогли на простом уровне работать с данными, например сортировать или фильтровать их, но нам пришлось экспортировать данные в Excel, чтобы произвести их серьезный обсчет. Хотя бета-версия, которую мы использовали, экспортировала данные только в Excel или текстовый файл, мы могли легко перенести данные как из одного, так и из другого формата в другие программы. Кроме того, по сообщению представителей фирмы OnDisplay, в итоговой версии, вероятно, будет реализовано экспортирование с использованием технологии OLE.

Для создания более сложных прикладных программ требуется программирование. Например, без него не обойтись при обеспечении автоматического слияния данных из двух или нескольких агентов при непосредственном доступе к корпоративной базе данных или при использовании агентов для создания Web-страниц “на лету”. Все возможности PageAgent Engine доступны из любого языка (например, JavaScript и Java). Вместе с бета-версией мы получили несколько примеров прикладных программ, которые мы слегка модифицировали, чтобы собрать простейшую программу.

Поставки CenterStage предполагается начать в июне, причем в нескольких вариантах. Например, версия CenterStage Developer стоимостью $995 будет включать PageAgent Builder, версия CenterStage Desktop за $295  -  Builder c ограниченными возможностями, а клиент WebAnalyst планируется продавать отдельно за $39,95. Серверная версия CenterStage стоит от $9995 для 100 пользователей до $39 995 для неограниченного числа пользователей и использования в Internet.

Все три версии  -  Developer, Desktop и WebAnalyst  -  будут включать однопользовательские версии PageAgent Engine в форматах ActiveX и подключаемых модулей корпорации Netscape Communications. В CenterStage Server входит многопользовательская версия PageAgent Engine, доступ к которой осуществляется с Web-сервера через интерфейс прикладного программирования (API).

Имонн Салливан

(PC Week Labs)

Резюме для руководителей

Бета-версия CenterStage.

Для корпораций, которые принимают ответственные решения на основе данных, получаемых из Сети, например, сравнивая прайс-листы или процент, взимаемый за пользование кредитом, CenterStage фирмы OnDisplay может оказаться просто бесценным. Вместо того чтобы копировать данные вручную, разработчики смогут создавать программы-агенты, автоматически получающие данные и помещающие их в базы данных или обычные прикладные программы. Методология оценки: http://www.pcweek.com/reviews/meth.html.

+      Агенты создаются на языке JavaScript, так что их можно будет легко использовать совместно с другими программами, работающими на Web-узлах; программа, которая запускает агентов, реализована в форматах ActiveX и подключаемых модулей Netscape; имеется многопользовательская версия для работы совместно с программами на сервере.

-- Серверная версия CenterStage слишком сложна; существующая бета-версия экспортирует таблицы только в формате Microsoft Excel или текстовом.

Фирма OnDisplay, Сан-Рамон, шт. Калифорния, (510) 355-3200, http: //www.ondisplay.com.

Версия для печати