ОБЗОРЫ

Пользователи смогут оценить ее решения для интеллектуального поиска

Крупные организационные структуры уже давно превратились в некую самостоятельную, “над-человеческую” форму жизни. Они рождаются, растут, умирают, при этом все меньше завися не только от тех людей, что в них работают, но даже и от тех, что их создали и ими владеют. Основная проблема управления в современном индустриальном обществе состоит как раз в еще большем уменьшении подобной зависимости. Желание преодолеть ее - главная причина растущего интереса к различным информационным системам (CRM, data warehouses+OLAP, knowledge management и пр.), позволяющим формализовать опыт и знания, отделить их от людей, сделав таким образом корпорации менее зависимыми от судеб своих работников.

Ян Флетчер (слева) и Александр Громов

Системы управления знаниями - частный тип таких ИС, позволяющий структурировать неструктурированную информацию и вести по массивам данных эффективный поиск. Благодаря им корпоративные знания оказываются доступными более широкой группе сотрудников, повышая производительность их труда и возможности для творческого подхода к работе. 18 февраля компания “Одеон - аналитико-стратегические технологии” провела семинар, посвященный выходу на российский рынок фирмы Convera (бывшая Excalibur Technologies, www.convera.com), производителя системы управления знаниями (УЗ) RetrievalWare. “Одеон-АСТ” является мастер-реселлером этого ПО.

Ян Флетчер, генеральный менеджер Convera в странах Европы, Азии и Африки, сделал доклад об основных проблемах, связанных с внедрением систем KM. По его словам, при внедрении таких систем прежде всего нужно обратить внимание на обеспечение полноты ввода и удобство вывода (визуализации) информации. Пренебрежение любым из этих факторов приведет к тому, что проект не обеспечит должного уровня возврата инвестиций.

Факторы успехов и провалов

Системы УЗ обеспечивают три ключевых способа доступа к информации - просмотр данных, разбитых до этого на категории, push-передачу новой информации в ИС напрямую экспертам (согласно их профилю), а также поиск по всем текстам в системе. Наибольшие проблемы возникают именно с последним (к тому же наиболее популярным) способом.

Опыт, накопленный при использовании поисковых систем Интернета, показывает, что менее 20% пользователей просматривают хотя бы 20 найденных ссылок и меньше 5% - хотя бы 30 ссылок. Иначе говоря, сколько бы документов ни нашла поисковая система, человек в среднем все равно просмотрит лишь 20 из них. Поэтому система УЗ должна давать высокую точность поиска - иначе наступает разочарование. С другой стороны, уровень подготовки пользователей снижается - не более 15% пытаются применять булевы операторы в запросах и не более 5% являются “продвинутыми”. Однако многие системные администраторы упорно меряют пользователей по себе, считая, что те в состоянии написать сложный запрос.

Еще один важный фактор, о котором часто забывают, - это необходимость сделать результаты поиска предсказуемыми. Только в этом случае пользователи смогут учиться и отдача от системы будет расти. Это одна из причин, почему обычные поисковые машины Интернета плохо подходят для корпоративных нужд: в них специально вводится элемент непредсказуемости, чтобы бороться с недобросовестными сайтами. Кроме того, Интернет-поисковики хорошо работают с массивами документов, сильно связанных гиперссылками, в то время как 80% документов в корпоративных хранилищах гиперссылками не связаны.

Также система УЗ должна позволять “продвинутым” пользователям строить сложные запросы - это оставляет людям возможность роста.

RetrievalWare в контексте других систем

По тому, как удовлетворяются эти требования, г-н Флетчер выделил три класса систем:

- “обычные” - вроде тех, что поставляют Microsoft, Verity и пр. Они хорошо работают на небольших объемах данных (менее 1000 документов), вследствие чего проблемы точности не возникают;

- Web-ориентированные - типа AltaVista и Google (их недостатки были отмечены выше);

- критические для бизнеса - к этому классу была отнесена система Convera RetrievalWare. Такие системы подключаются к хранилищам документов и ПО коллективной работы (Lotus, Documentum), Интернет- и интранет-сайтам и т. п. Хотя об этом и не говорилось в презентации, стоит отметить, что здесь Convera не одинока, подобные продукты выпускают фирмы Autonomy, Lotus (Discovery Server) и многие другие.

В RetrievalWare, по словам Яна Флетчера, используется несколько методов, улучшающих точность поиска. Например, система автоматически повышает рейтинг документа в результатах поиска, если запрашиваемые термины в нем стоят рядом. Кроме того, при визуализации этих результатов система раскрашивает найденные в документе слова в разные цвета, так что пользователь может понять, почему ею отобран тот или иной документ.

Наиболее же мощными являются средства сущностно-контекстной обработки. Система пытается использовать синонимы для терминов в запросе, причем весьма “интеллектуальным” способом - ведь простая замена слов может дать результат, обратный требуемому: число найденных документов существенно вырастет, но пользователь не сможет их все просмотреть. Это возможно только путем встраивания в систему сложной лингвистической основы для каждого конкретного языка поиска. Есть она и для русского.

В начале светлого пути?

Итак, какие выводы можно сделать после этой презентации? интересен сам факт возвращения компании в Россию после пятилетнего перерыва. Два года назад компания AYAXI пыталась продвинуть аналогичную систему фирмы Autonomy, но не добилась желаемого результата. Convera, избегавшая нашу страну в это время, сейчас, по словам Яна Флетчера, считает, что российский рынок созрел для внедрения подобных систем.

Аналогичной точки зрения придерживается и российский партнер - “Одеон-АСТ”, возглавляемый Александром Громовым, одним из руководителей и совладельцев фирмы “Весть-Метатехнологии”, имеющей серьезные наработки в области компьютерной лингвистики для русского языка. Собственно, поддержка русского - это вклад “Одеон-АСТ” в предлагаемый продукт.

Локальный партнер отвечает за координацию на рынке, полную локализацию системы и предоставление экспертизы по продукту организациям, его внедряющим. Такой организацией может быть не только конечный заказчик, но и системный интегратор, которому экономически невыгодно держать лингвистов у себя в штате. По словам Яна Флетчера, эта бизнес-модель была опробована в ряде стран Европы и дала позитивные результаты.

Рынком для ПО Convera, по мнению выступавших, должны стать организации, накопившие большие объемы данных, например СМИ, в том числе электронные (продукт имеет модули для работы с видеоархивами), гуманитарные организации (библиотеки, вузы и пр.), а также специальные структуры. На сегодняшний день RetrievalWare уже используется в Роспатенте для доступа к БД по изобретениям, товарным знакам и т. п., в ФАПСИ для управления электронными архивами, сбора и анализа информации, а также в Центральном банке РФ. Все остальные могут оценить достоинства и недостатки продукта на сайте компании BLogic (www.blogic.ru).

RetrievalWare 8.x

Сейчас Convera продает седьмую версию своего ПО, однако к концу года планируется выпуск восьмой версии. Помимо повышения общей производительности и масштабируемости, поддержки .Net и J2EE в нее должны быть добавлены и смысловые возможности. В их числе - средства автоматического распознавания вставок в документы на языках, отличных от языка всего документа, и поиска по ним. Сейчас такой межъязыковой поиск доступен по шести европейским языкам, однако он не отличается точностью. Эта точность будет повышена. Кроме того, в систему будут добавлены семантические и таксонометрические ресурсы для разных вертикальных отраслей - нефтяной и химической, государственных структур, финансовых, производственных и пр. Со временем они должны быть переведены и на русский.

Вообще вся архитектура языковой поддержки изменится. Она станет трехуровневой. Нижний слой будет отвечать за поддержку локальных языков - их лексики и семантики (он входит в “коробочную” поставку). Второй слой будет отвечать за термины и жаргонные выражения предметной области (обычно это 10-30 тыс. слов) и включать механизмы создания таксометрии. Последний слой - это словари самой компании. В продукте планируется предусматривать средства их упрощенного формирования путем анализа log-файлов поискового механизма.