Тема корпоративного поиска в общем-то не нова, но нужно признаться, что в нашей стране сколь-нибудь широко не поднималась. Да и из-за рубежа новости по этой тематике в зону внимания отечественной ИТ-общественности попадают не часто. Последний всплеск интереса к этому сегменту рынка наблюдался в конце 2007 г. в связи с выходом на него Microsoft, а также лидера интернет-поиска Yahoo! в партнерстве с IBM и Google. Но после этого опять наступило затишье.

Но все же есть некоторые явные признаки повышения интереса к вопросам поиска в корпоративных ИТ-системах, и одним из свидетельств тому стало проведение в Москве сразу двух семинаров по теме, причем одновременно, 2 декабря 2010 г. TerraLink в партнерстве с Microsoft сделала это в традиционном формате, а DOCFLOW совместно с компаниями ABBYY и Softline реализовали занятие в виде вебинара. Использование передовых ИТ-возможностей позволило “побывать” на обоих мероприятиях. Однако прежде чем рассказать о представленных там идеях и решениях, надо кратко сказать, зачем нужны средства корпоративного поиска, и посмотреть на состояние дел в мире, тем более что свежий отчет Gartner появился через несколько дней после московских презентаций.

Зачем это нужно

Поиск — это уже давно один из ключевых механизмов доступа пользователей к нужной им информации. Парадокс же заключается в том, что сегодня многие люди проще решают подобные задачи при работе в открытом и почти бесконечном пространстве Интернета и при этом испытывают значительные трудности в рамках своей корпоративной системы и даже на отдельном собственном ПК. По данным недавнего исследования международной ассоциации AIIM, 72% респондентов считают, что найти корпоративную информацию гораздо сложнее, чем открытую в Сети. Объяснение этому понятно: на предприятиях имеются порой десятки различных разнородных систем и хранилищ данных (в отличие от Интернета с достаточно однородной Web-средой). Обычно каждое решение имеет свои собственные средства поиска, но они, как правило, функционируют только внутри своей системы.

По результатам проведенного в 2010 г. опроса IDC видно, что 62% сотрудников на поиск информации тратят не менее двух часов в день, 57% утверждают, что разрозненная информация затрудняет поиск, 84% хранят ценную информацию на своих рабочих компьютерах, а 41% не способен справиться с постоянным увеличением потока информации. Экспресс-опрос слушателей вебинара DOCFLOW показал, что примерно схожие проблемы волнуют и российских заказчиков (таблица 1).

Говоря о различии между корпоративным поиском и поиском в Интернете, старший управляющий по корпоративным проектам “ABBYY Россия” Андрей Лубенец отметил, что в Интернете поиск охватывает открытую часть Web-сайтов, в то время как на предприятии он охватывает информационные системы с учетом прав доступа. Важным требованием является то, что внутри организации часто должны быть найдены все документы, релевантные запросу. Кроме того, при поиске тут должна учитываться профессиональная роль сотрудника (например, программист в первую очередь хочет видеть технические документы, а бухгалтер — финансовые и юридические).

Продолжая эту тему, руководитель департамента корпоративных интернет-решений компании Softline Антон Салов привел ряд основных требований к средствам внутрикорпоративного поиска:

  • возможности подбора по ключевым словам;
  • учет ограничения по числовым значениям и по дате, возможность уточнения запросов и объединение результатов различных запросов;
  • обеспечение автопреобразования в формат HTML, предсказание запросов;
  • использование технологий оценки качества и ранжирования результатов;
  • кэширование страниц;
  • формирование сложных логических поисковых запросов;
  • поддержка полнотекстового поиска с учетом морфологии, возможность сегментации поискового индекса в зависимости от профессиональной роли;
  • использование различных фильтров (например, ограничение областей поиска по отдельным языкам, типам файлов, Web-сайтам, метатегам);
  • определение синонимов для принятых в компании сокращений и терминов
  • персонализация параметров поиска;
  • использование динамически формируемых аннотаций к результатам поиска;
  • обеспечение группировки результатов поиска по источникам информации.

Положение дел в мире

По мнению компании Gartner, рынок средств корпоративного поиска находится в последние годы в стадии формирования и потому отличается весьма переменчивой ситуацией. Многие предприятия для решения задач поиска применяют средства порталов или ECM-платформ с использованием федеративных моделей взаимодействия систем и приложений, но все же организации, особенно крупные, все чаще испытывают потребности в применении специализированных средств. В сентябре 2009-го Gartner представила свое исследование этого рынка, из которого видно, что хотя лидером тут показана Microsoft, но все же большинство в группе ведущих поставщиков принадлежит специализированным игрокам (см. рисунок). Однако в отчете при это подчеркивалось, что роль крупных вендоров (IBM, Oracle и Google) будет наверняка возрастать. По оценкам Gartner, в 2008 г. доходы от продаж (новые лицензии и техническая поддержка) программных средств корпоративного поиска составляли 1,1 млрд. долл. с перспективой роста до 1,9 млрд. долл. в 2013-м (среднегодовой рост на 11,7%).

В отчете, выпущенном в ноябре прошлого года, Gartner подтвердила свои прогнозы по динамике роста данного рынка, сказав, что в 2010-м ожидается совокупный доход в 1,37 млрд. долл. В комментариях к результатам исследования отмечается, что в этом сегменте наблюдается использование широкого спектра ценовых схем и моделей доставки функционала. Кто-то из вендоров предлагает только традиционный способ инсталляции ПО, другие продают программно-аппаратные комплексы, а третьи ориентируются на вариант SaaS. При этом поставщики сегодня должны поддерживать как привычные источники данных (в первую очередь файловые серверы и системы управления контентом), так и нетрадиционные информационные ресурсы (скажем, внешние Web-сайты и системы доставки видео). И наконец, средства поиска должны быть интегрированы с разнообразными системами обеспечения безопасности и управления правами доступа пользователей.

В ноябрьском отчете Gartner отказалась от представления рыночной ситуации в виде своего традиционного квадранта, показав сводные сведения об основных игроках в виде таблицы (см. таблицу 2). По сравнению с исследованием 2009 г. в нынешнем документе отсутствует ряд специализированных разработчиков (Vivisimo, Recommind, Zylab, Kazeon), которые ориентируются на узковертикальные направления рынка. В списке нет и ряда вендоров, имеющих сильные средства поиска, но поставляемые лишь в составе комплексных пакетов, а не в виде отдельных продуктов (например, Open Text). На этот раз Gartner более четко определила лидирующую тройку рынка корпоративного поиска: Endeca, Google и Microsoft. О решениях последних двух, реально представленных в России, и шла речь на московских декабрьских семинарах.

Поисковые средства, представленные в России

На вебинаре DOCFLOW компания Softline рассказала о решениях трех поставщиков: Exalead, Google и Microsoft. Первый из них — французский разработчик, хорошо известный в основном на европейском рынке. По некоторым позициям его продукт имеет функциональные преимущества, в частности, в области работы с видео и по широте поддерживаемых форматов файлов и источников данных. В нем реализована поддержка русского языка, но все же данное решение позиционируется для корпоративного применения скорее в качестве решения начального уровня.

Компания Google предлагает для корпоративного поиска программно-аппаратный комплекс Google Search Appliance (GSA) — отдельный физический сервер с предустановленным ПО. По мнению российских экспертов, преимуществом данного решения является именно его полностью сконфигурированный вариант, что позволяет организации развернуть его самостоятельно без привлечения внешних интеграторов. Масштабирование системы выполняется за счет приобретения дополнительных серверов. Возможно расширение средств поиска с помощью, например, интеграции с ABBYY Recognition Server для оцифровки графических материалов.

Самым же мощным и универсальным поисковым решением на рынке сегодня является Microsoft FAST Search Server (MFSS). Однако развертывание данной системы, по оценкам Softline, требует весьма значительных капитальных затрат и существенных усилий по настройке системы. На вебинаре был приведен очень интересный сравнительные анализ создания поисковой системы на базе GSA и MFSS для Российской государственной библиотеки. Из него можно было сделать вывод, что GSA, выполняя 99% требований технического задания, обходился примерно в три раза дешевле (44 тыс. долл. за само решение и 9 тыс. долл. за внедрение), чем MFSS (140 тыс. долл. и 21 тыс. долл. соответственно), который, правда, выполнял 100% требований.

Однако нужно заметить, что MFSS — это лишь один из членов семейства средств поиска Microsoft, которое было более полно представлено на совместном семинаре TerraLink и Microsoft. Тут стоит сказать, что Microsoft имеет в своем арсенале два корпоративных поисковых движка: один собственной реализации (развиваемый еще с середины прошлого десятилетия), другой — приобретенной в начале 2008 г. норвежской компании FAST Search & Transfer.

На базе первого варианта поискового движка Microsoft предлагает два решения:

  • бесплатный Search Server 2010 Express, обладающий базовыми поисковыми возможностями с ограниченным масштабированием и предназначенный для работы на уровне подразделения или небольшой компании;
  • встроенные средства SharePoint Server 2010, способные выполнять широкий спектр поисковых задач, в том числе для крупных инсталляций, в рамках, например, портала компании.

На основе механизма FAST реализованы также два варианта:

  • FAST Search Server 2010 for SharePoint — мощный масштабируемый и настраиваемый инструмент решения практически любых поисковых задач, в том числе для управления базами знаний;
  • FAST Search for Internet Business — средство, предназначенное для встроенного применения в Web-порталах (например, для организации поиска на сайтах интернет-магазинов).

Представляя эти продукты, менеджер по продукту SharePoint Server российского отделения Microsoft Роман Щемелев подчеркнул, что этот движок поддерживает индексацию текста на более чем 80 языках (в том числе на русском) и глубокую обработку текста (включая лингвистическую обработку — фонетику, вычленение корней слов, работу с синонимами и аббревиатурами и пр.) на более чем 40 языках (русский также входит в это число). При этом для более детального анализа текста (например, исключения омонимов) можно воспользоваться решениями сторонних компаний — скажем, ABBYY.

FAST Search Server for SharePoint использует ту же схему интеграции с внешними системами, что и SharePoint Server 2010, позволяя создавать с помощью служб Business Connectivity Services коннекторы для индексации “внешнего” контента. FAST Search Server 2010 for SharePoint также включает дополнительные коннекторы индексации для решения более узких задач получения контента. К ним относятся коннекторы для доступа к базе данных (JDBC), Lotus Notes и EMC Documentum.

В целом эксперты (в том числе и Gartner) достаточно единодушно оценивают решения FAST как лидирующие на рынке средств поиска (хотя и недешевые). Отмечаются только два недостатка: привязка к платформе Microsoft и фокусировка на использование совместно с SharePoint. О существовавших ранее версиях под Linux и автономных продуктах вне SharePoint заказчикам, похоже, нужно позабыть.

Таблица 1. Результаты опроса слушателей вебинара DOCFLOW (декабрь 2010)
Какой способ поиска информации используется в вашей компании?
Используем встроенные поисковые средства в программе 46%
Приходится искать вручную, просматривая папки и документы39%
Установлена специальная поисковая система 12%
Даем задание секретарю или сисадмину 3%
Сколько рабочего времени вы тратите на поиск нужной информации?
Несколько минут 36%
Несколько часов 20%
Несколько секунд 7%
Что мешает вам быстро осуществлять поиск?
Разные места хранения файлов 85%
Уровни доступа 9%
Различные форматы файлов 3%
Служба безопасности 3%
Помогло бы, по вашему мнению, использование корпоративной поисковой системы в работе?
Существенно помогло бы 57%
Да, но несущественно 40%
Я так и не понял, что это такое 3%

Таблица 2. Ситуация на рынке корпоративного поиска (Gartner, ноябрь 2010)

Компания Рейтинг
Подающие надежды Положительные возможности Лидеры
Autonomy

+

Endeca +
Exalead +
Expert System +
Fabasoft +
Google +
IBM +
ISYS +
Microsoft +
Oracle +
Polyspot +
Sinequa +