Yandex Data Factory, подразделение компании «Яндекс», запустило сервис для поиска и мониторинга важной для бизнеса информации — «Экстракт». Сервис обучается на размеченных результатах поиска: пользователь выбирает, какие страницы ему подошли, и «Экстракт» сам находит похожие в интернете.

«Поиск „Яндекса“ помогает быстро находить информацию и решать повседневные задачи: вы вводите запрос и получаете релевантные результаты на первой странице, а иногда — прямо в поисковой строке. Однако организациям часто нужно больше — найти всю доступную информацию в определённой области. Например, консалтинговую фирму могут интересовать все публикации об инвестициях китайских компаний в Австралии. Чтобы отыскать их, пришлось бы задавать десятки разных запросов, просматривать тысячи результатов — и всё равно собрать полные данные практически невозможно, — отметил технический директор YDF Сергей Вавинов. — „Экстракт“ решает эту задачу иначе. Он смотрит, какие страницы релевантны для вас, и находит в интернете все похожие на них».

Образцы релевантных страниц пользователь отмечает вручную. Экстракт строит на их основе поисковую модель и показывает все похожие страницы, которые нашлись в индексе «Яндекса», а затем с заданной периодичностью добавляет свежие результаты. Среди них также можно отмечать релевантные и нерелевантные: чем больше страниц размечено — тем точнее и полнее будут результаты работы сервиса.

Экстракт предназначен для аналитических отделов компаний и организаций. Сейчас он проходит закрытое бета-тестирование, для участия в котором нужно оставить заявку. Помимо стандартного сервиса Yandex Data Factory предлагает индивидуальные решения в области специализированного поиска. Например, для компании «АстраЗенека» в YDF разработали систему поиска научных публикаций о резистентности к антибиотикам, а для «Банка России» — сервис для мониторинга сайтов организаций, предоставляющих потребительские займы.