На выставке Netcom’96 московская фирма CompTek впервые продемонстрировала Яndex, семейство лингвистических продуктов и технологий, в том числе:

 

- Index-Web  -  средство поиска в Internet, способное индексировать русскоязычные информационные серверы и обеспечивать интерфейс к известным поисковым системам. В частности, на выставке демонстрировалось взаимодействие с национальным сервером новостей и системой AltaVista корпорации Digital.

 

- Index-Site  -  функция быстрого поиска на собственном сервере заказчика.

 

- Index-Intra  -  система индексирования и интеллектуального поиска документов в корпоративной сети.

 

- Index-Server  -  модуль морфологического анализа, встраиваемый в системы офисного документооборота и базы данных.

 

В связи с ростом количества русскоязычных Web-серверов и развитием Internet-подобных intranet-сетей вопрос индексации (проще говоря, быстрого поиска) нужных слов в русскоязычных текстах становится все более актуальным. Лингвистические продукты фирмы CompTek созданы с учетом морфологии русского языка, т. е. способны учитывать возможные изменения окончаний, суффиксов русских слов. Такая проблема характерна именно для русского языка. Для хорошего распознавания английского текста достаточно использовать шаблоны и ограниченное количество простейших функций, детально описанных в соответствующей литературе. Алгоритм морфологического анализа, реализованный в продуктах Яndex, работает на базе морфологического словаря объемом 120 тыс. слов и включает в себя функции нормализации (приведение к форме единственного числа именительного падежа), поиска незнакомых слов и выявления так называемых омоформ (различных по смыслу слов, имеющих одинаковое написание в некоторых своих формах).

 

Телефон фирмы CompTek: (095) 135-4193.

Версия для печати