”Русский Текст” первый российский DataBlade-модуль
В рамках всемирной программы “Informix DataBlade Developers Program” компанией RedLab разработан первый в нашей стране модуль DataBlade (об этой технологии мы писали в PC Week/RE, № 32-33/96, с. 20), получивший название “Русский Текст”. Его подключение к выпущенной в декабре прошлого года объектно-ориентированной СУБД Informix Universal Server (см. PC Week/RE, № 6/97, с. 18 и № /97, с. 29) обеспечивает возможности хранения, управления и полнотекстового поиска по русскоязычным документам. Авторы, имеющие 20-летний опыт разработки лингвистических программ, утверждают, что благодаря их детищу Informix Universal Server становится на сегодня единственной СУБД, предоставляющей полную поддержку русского языка на уровне морфологического анализа.
Используемая в модуле технология морфологического разбора позволяет “прочесывать” электронные копии документов со скоростью 3 - 5 Мб текста в cекунде. Пользователь может повышать скорость обработки запросов, определяя списки часто встречающихся, но не используемых при анализе текста слов (например, служебные слова, союзы, предлоги, местоимения).
В “Русский Текст” входит словарь, содержащий более 140 000 словооснов, который может расширяться и обновляться в рамках соглашения о технической поддержке.
Возможности DataBlade-модуля “Русский Текст”:
- поиск в документах всех словоформ заданного слова;
- построение запросов произвольной степени сложности с использованием логических операторов AND, OR, NOT;
- поиск по заданному шаблону и нечеткий поиск, когда неизвестно точное написание нужного слова;
- поиск слов, которые встречаются на определенном расстоянии от заданного слова, при помощи операторов расстояния и соседства;
- представление результатов поиска по документам, хранящимся в базе данных, в виде текста или текстового файла;
- поиск по документам, представленным в различных форматах, включая издательские системы, публикации в Web и др.;
- настройка на лексику заказчика.
Строгое соответствие корпоративным стандартам позволяет использовать “Русский Текст” совместно с другими DataBlade-модулями для обработки многоязычных документов.
Компания RedLab - первый сертифицированный российский участник программы “Informix DataBlade Developers Program”. Более трех лет она является партнером и авторизованным центром обучения Informix Software, осуществляя поставку и техническую поддержку продуктов Informix и обучение работе с ними, а также разработку прикладного программного обеспечения.
С ней можно связаться по телефону: (095) 146-7733. Адрес Web-cервера: http://redlab.cs.msu.su.
Телефон московского представительства Informix Software:
(095) 755-8700.
В. М.