Панорама

Сергей Кузнецов о техническом долге в критических системах: «Никто не планировал 3,5 миллиона записей — именно так и возникает технический долг»

Инженер-программист рассказывает о том, почему накопленные «кодовые упрощения» становятся серьезной угрозой для приложений …

Как строится надёжность цифровых систем: инженер Костадин Алмишев и его стратегия создания предсказуемых сервисов

В современной финансовой индустрии существует интересный парадокс: чем сложнее становятся технологии внутри банка или …

«ТОП-40 диджитал-экспертов»: время «гибридных» ИТ-директоров

Ежегодный рейтинг лидеров цифровой отрасли зафиксировал эволюцию ролей CIO и CTO в российских компаниях. Обнародован …

Генеративный искусственный интеллект в мобильной разработке корпоративного уровня

По данным Gartner, в 2025 году около 60% крупных компаний тестировали генеративный искусственный интеллект …

Состояние и перспективы развития российских систем управления идентификацией и доступом. Часть 2

Российское vs иностранное Сравнивая функционал отечественных решений для управления идентификацией и доступом …

Новая версия открытого анализатора языка FreeLing 3.1

Александр Чубуков | 19.09.2013

Вышла новая версия программного анализатора языка FreeLing 3.1, представляющий собой инструментальный пакет ПО с открытым исходным кодом, предназначенный для аналитической обработки естественного языка.

Проект FreeLing стартовал в 2004 г. В настоящее время его развитие и поддержка осуществляется группой научно-исследовательского центра TALP Политехнического университета в Каталонии (Испания) под руководством проф. Луиса Падро (Lluís Padro).

Исходный код FreeLing распространяется на условиях лицензии GNU GPL, что, по мнению его разработчиков, удобно для некоммерческих проектов и академических исследований. В то же время лицензия не позволяет использование FreeLing в составе коммерческого продукта — в таких случаях придется обратиться к разработчикам и лицензировать ПО FreeLing или отдельные модули в индивидуальном порядке.

Ключевые улучшения в анализаторе относительно предыдущей версии:

Потокобезопасность — допускает параллельную обработку текстов (например, через веб-сервисы).
Расширенный API для аналитических модулей.
Улучшенный API для управления и навигации по полученным в результате обработки текста лингвистическим структурам.
Новая функциональность (на базе компилятора языка FOMA) для обработки нестандартного текста обеспечивает при помощи потокового текстового редактора (SED — Stream EDitor) поиск в словаре схожих с заданной строкой слов.
Встроенный модуль регулярных выражений позволяет выбрать в качестве основного компонента boost::regex или boost::xpressive.
Упрощена инсталляция и сборка в MacOSX и Windows (с MSVC).
Документация дополнена примерами.

Программный лингвистический анализатор FreeLing написан на С++ и построен по модульному принципу. Как отмечается, он предоставляет пользователю богатый функционал для анализа текста с учетом специфики естественного языка. Анализатор выполняет разметку текста (токенизацию — разделение предложения на составляющие: слова, знаки препинания); выделение предложений с учетом знаков препинания, использующихся для сокращений; морфологический анализ; определение составных слов; вероятностное определение части речи неизвестного слова (hmm tagger); обнаружение и определение именной группы; классификацию именной группы; построение дерева зависимостей (слов в предложении); определение местоимений (местоименных словоформ); нормализацию и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и др.).

Вероятностное определение части речи построено на основе обучения, проводившегося по большому массиву размеченных предложений со снятой омонимией. На вход анализатора поступает предложение, на выходе — вероятностные характеристики части речи для каждого слова (даже если слово отсутствует в словаре). При этом используется классическая вероятностная схема Маркова. На данный момент ошибка в определении краткой (часть речи — род) формы, по утверждению разработчиков, составляет не более 4,7% и полной (вся информация о слове) — не более 12%. Обучающий корпус постоянно пополняется, что, как ожидается, в перспективе количество ошибок будет уменьшаться.

Распределенная версия Freeling включает в себя ряд морфологических словарей. Русский словарь содержит свыше 1,63 млн. слов. Благодаря мощному аналитическому модулю при обработке текста используется множество дополнительных слов, образованных с помощью суффиксов, глагольных форм, прилагательных и др., отсутствующих в основном словаре.

Отмечается, что каждый из включенных в состав пакета Freeling морфологических словарей получен из внешнего источника и имеет свои специфические лицензии на использование. Поэтому перед копированием файлов этих словарей разработчики основного пакета рекомендуют пользователям убедиться в том, что лицензионные условия ими не будут нарушены.

FreeLing поддерживает несколько языков, включая русский.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Новая версия открытого анализатора языка FreeLing 3.1

Комментарии