Принципиально новая технология, которая должна существенно повысить скорость и точность работы поисковых механизмов, разработана фирмой InXight Software (Пало-Альто, шт. Калифорния), отделившейся год назад от корпорации Xerox.

 

В конце октября фирма выпустила продукт под названием LinguistX, представляющий собой комплект приложений и инструментов разработки, в основу работы которого положена математическая концепция конечного числа состояний.

 

Заручившись поддержкой ряда крупных независимых производителей ПО, InXight рассчитывает стать единственным поставщиком базовой технологии для поисковых приложений и систем управления документами, подобно тому как фирма RSA Data Security в свое время стала поставщиком технологии, на основе которой работает большая часть ПО обеспечения защиты данных.

 

Целый ряд производителей ПО, а также других компаний, чья деятельность связана с информационными технологиями, уже пользуются возможностями LinguistX. Корпорация Infoseek и фирма Verity применяют LinguistX в своих поисковых механизмах, корпорация Oracle  -  в инструментах обработки запросов к СУБД, фирма SPSS  -  в аналитических пакетах, а фирма Ebsco Publishing использует этот продукт при создании Web-содержимого. Фирма Verity решила заменить на LinguistX разработанное корпорацией Inso средство анализа естественного языка из пакета Search97.

 

Особенность математики конечного числа состояний заключается в том, что в ней перед выполнением каждой операции на уравнение накладываются определенные ограничения. Если применить эту концепцию к программной обработке языка, то, вместо кодирования каждого слова разработчику будет достаточно задать грамматическую структуру или характерные свойства текста.

 

“Продукт, созданный InXight, использует сложные алгоритмы, основанные не столько на работе с конкретными словами, сколько на анализе общей структуры фраз,  -  объясняет Тед Шедлер, аналитик из фирмы Forrester Research (Кеймбридж, шт. Массачусетс).  -  Это означает, что люди теперь имеют возможность общаться с компьютером на уровне речевых образов”.

 

Независимые производители ПО вполне могут положиться на алгоритмы LinguistX. Сами создатели этого продукта, например, с успехом применяли их при поиске данных в массиве, содержавшем более пяти миллионов французских слов, используя для этого менее 300 Кб памяти.

 

Фирма SPSS (Чикаго) использует Java-версию пакета LinguistX Word Analyzer для автоматической классификации и логической группировки ответов на нечеткие вопросы.

 

“LinguistX позволяет существенно сократить объем информации, который необходимо обрабатывать,  -  говорит Андреа Холл, менеджер SPSS по сбыту недавно выпущенного приложения Text-Smart.  -  Благодаря этому значительно возрастают скорость обработки запросов и информативность ответов”.

 

В процессе работы LinguistX сначала систематизирует документы по структуре предложений, типу встречающихся существительных, глаголов и прилагательных, а затем запускает обучающиеся агенты, способные определять, в каком контексте то или иное слово употребляется в документе.

 

Приложение может распознавать все формы слов, в том числе корни, литературные и разговорные варианты написания, а также орфографические ошибки, сокращения и аббревиатуры.

 

Основу LinguistX составляют три компонента: модуль Language ID, определяющий язык, на котором написан документ, Word Analyzer  -  анализатор слов и Phrase Analyzer  -  анализатор выражений, а также лингвистические модули, охватывающие 13 языков, включая японский. Цена комплекта LinguistX зависит от объема поставок и структуры лицензионных выплат.

 

Помимо LinguistX, фирма InXight выпускает также продукт под названием Summarizer, который способен с помощью описанной технологии составлять резюме статей, обрабатывая до 1 Гб данных в час.           

 

Джим Керстеттер

Версия для печати