Проприетарные гиганты поглощают корпоративные поисковые платформы, а тем временем платформа с открытым кодом Lucene/Solr делает успехи. Другая поисковая платформа с открытым кодом — Apache Nutch 2.0 — также обретает сторонников.

Открытый код не достиг больших успехов в веб-поиске, но платформа Lucene/Solr делает первые успехи в корпоративном поиске, особенно в свете эпидемии поглощений, охватившей проприетарных гигантов. Первой была Microsoft, несколько лет назад купившая технологии FAST и интегрировавшая их в Microsoft SharePoint. Затем HP приобрела Autonomy, следом за ней Oracle — компанию Endeca. А совсем недавно IBM приобрела фирму Vivisimo.

Пол Дошер, исполнительный директор Lucid Imagination, чья корпоративная поисковая платформа LucidWorks базируется на комбинации Lucene/Solr, полагает, что опасения попасть в зависимость от производителя или прекращения поддержки платформы усиливают интерес к альтернативам с открытым кодом. “Клиенты интересуются открытым кодом и технологиями Lucene и Solr, поскольку хотят застраховаться от возможных проблем, которые могут последовать за корпоративными поглощениями”, — заявил он и подчеркнул, что недавно обсуждал эту важную тему с аналитиком Gartner.

“FAST не будет поддерживаться на Linux или других платформах. Мы наблюдаем миграцию с FAST среди пользователей, которые не желают развертывать стек Microsoft, — сообщил Дошер. — Клиенты [Microsft, Oracle и IBM] беспокоятся о ценах, поддержке и планах на будущее. Они заинтересованы в Lucene и Solr, поскольку эти платформы независимы от производителя”.

Lucene (и Nutch) создал Дуг Каттинг, бывший инженер Yahoo, а ныне архитектор Cloudera. Lucene используется в Facebook, Twitter, Groupon, Boeing, Ford и Shopzilla. История Lucene насчитывает около 10 лет, а родственного ему поискового сервера Solr — около пяти. Альфа-версии Lucene 4.0 и Solr 4.0 выпущены Apache в начале июля, а Nutch 2.0 — 7 июля.

Несколько настоящих и бывших сотрудников LucidWorks тесно связаны с проектом Apache Lucene/Solr, включая Эрика Хэтчера, который является членом проектного комитета Apache Lucene Project.

Он считает, что открытые поисковые платформы ждет светлое будущее в эру больших данных и отмечает, что среди пользователей Lucene/Solr сегодня представлены Apple, Microsoft, Zappos, Orbitz, Wells Fargo, The Motley Fool, Cisco, ЦРУ, департамент сельского хозяйства и национальное агентство здравоохранения США.

“Nutch — это поисковый агент. Для масштабной работы ему требуется большое хранилище, поэтому для распределения поисковых заданий и хранения результатов используется Hadoop. Чтобы искать по контенту, последний должен быть проиндексирован, — написал Хэтчер в электронном письме. — Lucene является отличной поисковой библиотекой, которая благодаря Solr превращается в поисковый сервис. Собранный контент можно передать из Nutch в Solr для индексации, которая выполняется с помощью Lucene, а затем поисковые запросы направляются в Solr (который опять использует Lucene для поиска). Компоненты определенно готовы для конкуренции в сегменте корпоративного поиска. Я работал в компаниях, которые заменили Google Search Appliance на Solr и нашу корпоративную платформу LucidWorks”.

Google все еще остается недосягаемой на арене веб-поиска (и рекламы). Но не удивлюсь, если однажды релиз поисковой платформы с открытым кодомApache Nutch 2.0 станет достойным соперником — если какой-нибудь большой производитель или консорциум производителей инвестирует капиталы, необходимые для похода против Большого G.

Версия для печати