На выставке Netcom’96 московская фирма CompTek впервые продемонстрировала Яndex, семейство лингвистических продуктов и технологий, в том числе:
- Index-Web - средство поиска в Internet, способное индексировать русскоязычные информационные серверы и обеспечивать интерфейс к известным поисковым системам. В частности, на выставке демонстрировалось взаимодействие с национальным сервером новостей и системой AltaVista корпорации Digital.
- Index-Site - функция быстрого поиска на собственном сервере заказчика.
- Index-Intra - система индексирования и интеллектуального поиска документов в корпоративной сети.
- Index-Server - модуль морфологического анализа, встраиваемый в системы офисного документооборота и базы данных.
В связи с ростом количества русскоязычных Web-серверов и развитием Internet-подобных intranet-сетей вопрос индексации (проще говоря, быстрого поиска) нужных слов в русскоязычных текстах становится все более актуальным. Лингвистические продукты фирмы CompTek созданы с учетом морфологии русского языка, т. е. способны учитывать возможные изменения окончаний, суффиксов русских слов. Такая проблема характерна именно для русского языка. Для хорошего распознавания английского текста достаточно использовать шаблоны и ограниченное количество простейших функций, детально описанных в соответствующей литературе. Алгоритм морфологического анализа, реализованный в продуктах Яndex, работает на базе морфологического словаря объемом 120 тыс. слов и включает в себя функции нормализации (приведение к форме единственного числа именительного падежа), поиска незнакомых слов и выявления так называемых омоформ (различных по смыслу слов, имеющих одинаковое написание в некоторых своих формах).
Телефон фирмы CompTek: (095) 135-4193.