ОНА СОЗДАЁТСЯ НА ОСНОВЕ ТЕХНОЛОГИЙ КОМПАНИИ ПРОМТ

Изыскать деньги и потратить их с умом — большое искусство. Им владеют далеко не все люди, компании, организации и государства. Но есть и приятные исключения. Вот одно из них. Литва — относительно небольшая страна. В ней всего около 7 млн. населения. После вступления в Европейский союз (European Communities) её жителям (многие из которых в совершенстве владеют только литовским языком) волей-неволей пришлось столкнуться с большим объёмом англоязычной информации — как печатной, так и онлайновой.

Светлана Соколова: “Это первый проект, выполняемый нами на средства Евросоюза”

Светлана Соколова: “Это первый проект, выполняемый нами на средства Евросоюза”

Естественно, возникла проблема перевода. Традиционные пути её решения известны: изучение языка в школе, вузе и/или на специальных курсах, поиск незнакомых слов в словаре (бумажном или электронном), обращение к знатокам языка и т. д. Но всё это требует известных, порой весьма значительных, затрат времени.

Не секрет, что тексты, не являющиеся узкоспециализированными и выраженные в электронной форме, просто и весьма эффективно можно перевести c помощью персональных и онлайновых программ-переводчиков, которые разработаны для большинства широко распространённых языков: английского, испанского, русского, немецкого, французского, итальянского и т. д. Так как литовский язык широко распространённым не назовешь, то и электронных переводчиков для него нет: ведь создание такого рода программ под силу лишь высокопрофессиональным коллективам, которых во всём мире буквально считанные единицы.

Вот как решило эту проблему Литовское государство, в котором весьма сильна так называемая “лингвистическая общественность”. Последняя обратила внимание правительства на то, что одна из директив Евросоюза призывает страны сообщества к решению проблем, связанных с преодолением языковых барьеров. В том числе за счёт так называемых “специальных фондов”, которые формируются из членских взносов стран-участниц и тратятся на различные общественно-полезные цели (не так давно в Литве за счёт этих фондов, в частности, были приведены в порядок наиболее значимые автомобильные дороги). Правительство должным образом отреагировало на “нужды трудящихся” (см. врезку “Кому это нужно?”) и проделало определенную организационную работу, в итоге которой стране было выделено 5,5 млн. литовских лит (около 1,7 млн. евро) на разработку англо-литовской системы перевода и реализацию на её основе общедоступного Web-сервиса переводов.

Кому это нужно?

В ходе опроса, проведенного Центром компьютерной лингвистики VMU среди граждан Литвы, выяснилось, что об отсутствии проблем с пониманием англоязычных Интернет-ресурсов сообщили менее половины респондентов. Остальная часть опрошенных либо лишена возможности получать полезную информацию в Интернете, либо вынуждена тратить на перевод большое количество времени.

За координацию проекта взялся Центр компьютерной лингвистики каунасского Университета Витаутаса Магнуса* (Vytautas Magnus University, VMU). В ноябре прошлого года был объявлен открытый международный конкурс, на который поступило две заявки: от германской фирмы и российской компании ПРОМТ, выступившей в союзе с местной фирмой Alna Software, насчитывающей свыше ста сотрудников и специализирующейся в области офшорного программирования. По итогам конкурса — они были объявлены в январе нынешнего года — победителем был признан российско-литовский альянс.

По словам основателя и президента компании ПРОМТ Светланы Соколовой, выбор жюри был обусловлен прежде всего тем, что её компания, освоившая уже 24 языковых направления перевода, на практике продемонстрировала высокую скорость освоения новых “языковых пар”. Кроме того, в “арсенале” компании уже были электронные переводчики, производившие “трансляции” на морфологически сложные языки (один из примеров такого языка — русский, в котором, насчитывается, c учётом множественного числа, 12 падежных окончаний, в литовском же есть дополнительный “звательный падеж”, но можно сказать, что в нём насчитывается, с учетом, множественного числа, 14 падежных окончаний).

Как это будет оцениваться?

Каждое переведённое предложение оценивается по пятибалльной шкале. Оно получает самые низкие оценки, если вся (1 балл) или почти вся (2 балла) существенная информация потеряна. Три балла получает предложение, в котором потеряна только часть информации, однако предложение остается понятным. Пять баллов даются за правильное представление первоначальной информации без искажения смысла. Для оценки качества машинного переводчика берётся процент предложений, получивших три и более балла. Разработчики рассчитывают, что в данном случае качество перевода составит не менее 70%.

Разделение труда в реализации проекта разработки англо-литовской системы перевода (созданный на её основе общедоступный Web-сервис должен начать функционировать в декабре 2007 г.) выглядит следующим образом: PROMT на основе фирменной технологии класса “rule-based machine translation” (“машинный перевод, основанный на правилах”) создаёт и реализует модули синтеза предложений на литовском языке, а также разрабатывает и передаёт литовской стороне методику создания “словаря машинного перевода” для англо-литовского направления, который является составной частью проектируемой системы перевода**. Наполнением же этого словаря “фактическим материалом” (на первом этапе проекта это будет около 50 тыс. словарных статей***, соответствующих наиболее употребительным словам и выражениям английского языка) будет заниматься компания Alna Software. Она же займётся подготовкой пользовательской документации на литовском языке и сопровождением переводческого сайта.

Как говорит Вайдас Ряпячка, менеджер проекта со стороны VMU, для пользователей данный сервис машинного перевода будет бесплатным****, так как создаётся исключительно за счёт государственных средств. При этом для перевода текстов можно будет использовать либо специальный сайт с формами для перевода, либо бесплатно скачиваемые плагины для различных браузеров, а также для MS Word. Сервис также позволит переводить англоязычные Web-страницы на литовский язык одним щелчком мыши с полным сохранением форматирования. Планов по созданию литовско-английского переводчика стороны пока не вынашивают. Видимо, в силу незначительной востребованности данного языкового направления. Потребность же в англо-литовском онлайн-переводе косвенно характеризуют итоги исследования, проведённого аналитической компанией TNS Gallup по заказу VMU (cм. диаграмму “Динамика компьютеризации литовских семей”).

О востребованности онлайн-переводчиков

По данным компании ПРОМТ, только в ноябре этого года услугами бесплатного онлайн-сервиса www.translate.ru, функционирующего с 1998 г. воспользовались около одного миллиона уникальных пользователей.

Весь процесс разработки электронного англо-литовского транслятора будет открытым для экспертов Евросоюза. Тестирование готового продукта проведут независимые эксперты, которые оценят корректность и адекватность перевода по специальной методике (см. врезку “Как это будет оцениваться?”).

“Хотя литовская морфология является одной из самых сложных, наша технология перевода прекрасно подходит для создания системы перевода для литовского языка. Поэтому мы не сомневаемся, что созданный в результате сервис перевода получит высокую оценку не только экспертов, но и литовских пользователей, — заявила Светлана Соколова. — Начало проекта показывает, что работа в паре с местным разработчиком может быть очень эффективна. Поэтому уже сейчас можно сказать, что мы готовы рассматривать возможность совместной разработки и для других языков”.

Она также отметила, что для компании ПРОМТ реализация англо-литовской языковой пары, где часть работы впервые будет выполняться фирмой-партнёром, является первым опытом экспорта технологии разработки.

Динамика компьютеризации литовских семей

Динамика компьютеризации литовских семей


<Сноски>

*Витаутас Магнус (Витаутас Великий), в честь которого назван университет, родился в 1350 г. Был одним из самых известных правителей средневековой Литвы.

**Кроме того, составными частями создаваемой системы англо-литовского перевода являются словарь английского языка и модули анализа предложений на английском языке, разработанные компанией ПРОМТ раньше.

***К началу декабря 2006 г. данный словарь насчитывал уже 11 тыс. словарных статей.

****Это не исключает того, что на базе данной системы перевода в дальнейшем могут быть созданы различные коммерческие продукты.

Версия для печати