ТЕХНОЛОГИИ ПЕРЕВОДА
Александр Андреев
Вначале был... камень
В 1799 г. французские солдаты при построении фортификационных сооружений в местечке эль-Рашид обнаружили гранитную плиту с выбитыми на ней надписями на трех языках. Это был текст указа о вступлении на престол египетского царя Птолемея V, написанный на древнегреческом, языке простых египтян и иероглифами (196 г. до н.э.). За прошедшие с тех пор двадцать с лишним веков появилось множество новых технологий для облегчения труда переводчиков. Сначала на смену каменным плитам пришли пергаменты, гусиные перья и чернила, затем бумага и самопишущие ручки. XX век подарил пишущие машинки и, наконец, венцом технологического совершенства можно назвать компьютер. Конечно, даже сейчас находятся переводчики, которые не доверяют "умной" технике и по-прежнему работают с бумагой и карандашом. Однако технический прогресс неумолимо движется вперед, вынуждая переводчиков брать на вооружение самые новейшие технологии.
Что может предложить современный компьютер переводчику для облегчения его работы?
На первый взгляд только две вещи: текстовый редактор и электронные словари. О мощных возможностях современных текстовых редакторов рассказывать нет нужды. Использование электронных словарей также не ставится под сомнение - работа c ними намного быстрее и удобнее, чем с бумажными аналогами. Однако здесь стоит рассказать о технологии Translation Memory (в русском языке принят термин "память переводов"), которая уже более 15 лет является в мире де-факто стандартным инструментом переводчиков, хотя у нас в стране еще только завоевывает признание.
Две загадочные буквы - TM
В стародавние времена вопросы специализации не были актуальны для переводчиков (речь пойдет именно о письменных переводах). Общий объем переводов был сравнительно невелик, и переводчику достаточно было хорошо владеть иностранным языком, чтобы успешно справляться с переводом основной массы текстов. Техническая революция XX века внесла кардинальные изменения в жизнь людей. Переводчики не стали исключением. Фантастическое увеличение числа технических устройств, машин и другой сложной техники привело к лавинообразному количественному росту различных терминов и специализации переводчиков. Невозможно одинаково хорошо разбираться в технических нюансах радиорелейных устройств, терминах из документации по нефтегазовому месторождению или из сводки с фондовых рынков.
Второй важной тенденцией можно назвать увеличение объемов перевода. Чем сложнее и масштабнее техника, тем больше объем сопутствующей ей документации (технических описаний, инструкций по эксплуатации и пр.). Например, объем документации по Boeing 737 исчисляется десятками тысяч страниц. Как показывают результаты исследования, проведенного ассоциацией LISA*1 в ноябре 2004 г. (LISA 2004 Translation Memory Survey), 42% опрошенных переводят менее миллиона слов в год, у 24% компаний - участниц опроса ежегодный объем переводов составляет 1-5 млн., 12% переводят от 5 до 10 млн., объем перевода остальных компаний - не менее 10 млн. слов в год. В частности, большинство производителей теперь не ограничиваются узкими рамками одного локального рынка и активно осваивают региональные рынки. При этом локализация продукции, в том числе перевод описания продукта на местный язык, является одним из обязательных условий для его вывода на локальный рынок.
_____
*1 Данное исследование основано на опросах посетителей сайта некоммерческой ассоциации LISA (www.lisa.org), объединяющей компании и индивидуально работающих специалистов, занятых в индустрии GILT (Globalization, Internationalization, Localization, Translation - глобализация, интернационализация, локализация, перевод). Членами LISA являются более 400 ИT-компаний, поставщиков переводческих сервисов, а также крупных корпоративных пользователей.
Третья важная тенденция - увеличение количества повторяющихся текстов. Производители регулярно обновляют свою продукцию, выпуская новые версии изделий (известно, что все новое продается лучше), которые далеко не всегда кардинальным образом отличаются от предыдущих моделей, а чаще представляют собой слегка измененные их модификации. По этой причине документация новинки может на 70-90% совпадать с описанием ее предыдущей версии.
Вследствие развития указанных тенденций современный переводчик обычно специализируется на определенной тематике или ряде смежных тематик, имея дело с переводом больших объемов документов, характеризующихся высокой степенью повторяемости текстов. Для того чтобы успешно справляться с подобной работой, и была придумана технология Translation Memory (TM), которая позволяет повторно использовать ранее сделанные переводы, что приводит к существенному сокращению времени работы.
Технология ТМ действует по принципу накопления результатов переводов: в процессе перевода в базе ТМ сохраняется исходный сегмент (обычно исходный текст сегментируется по предложениям), и точка считается концом сегмента. Однако пользователь может задать и другие правила сегментации, например концом сегмента может служить точка с запятой и его перевод. При обработке нового текста система посимвольно сравнивает его сегменты с сохраненными в базе и высчитывает процент совпадения между ними. Если идентичный или подобный исходному сегмент обнаружен в базе, его перевод отображается с указанием совпадения в процентах. Сегменты, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие.
Можно выделить три основных преимущества TM:
- единообразие перевода терминологии (consistency). Будучи однажды переведенным, термин сохраняется в базе переводов. Если данный термин обнаруживается в новом тексте, его перевод загружается из базы. Это особенно удобно при групповой работе или работе с внештатными переводчиками, поскольку общая база переводов обеспечивает полную унификацию перевода терминологии;
- сокращение затрат (cost savings). Заложенный в основе идеологии ТМ принцип повторного использования переведенных текстов дает прекрасный результат при работе с повторяющимися текстами. Однажды сохраненный в базе программы перевод сегмента текста можно использовать в дальнейшем неограниченное число раз. Даже в случае неполного совпадения исходного фрагмента текста с каким-либо из хранящихся в базе сегментов (применяются алгоритмы нечеткого поиска), например 80%, достигается существенная экономия ресурсов, поскольку корректировка уже готового текста менее трудоемка, чем перевод "с нуля";
- экономия времени (time to market). Крылатая фраза "время - деньги" также успешно применима и к переводческим проектам, использующим ТМ. Программа существенно сокращает затраты на извлечение текста и последующую верстку уже переведенных документов. Так, многие программы TM поставляются вместе со специальными фильтрами, которые извлекают текст из исходных документов, подготовленных в таких форматах, как Quark, Framemaker, Interleaf. Затем текст переводится, а полученный результат помещается обратно в документ с исходным форматированием.
Сейчас перевод больших объемов документов (более 1000 стр.) без использования Translation Memory в мировой практике можно считать нонсенсом. Помимо прочего базы TM служат удобным корпоративным хранилищем контента на иностранных языках. Хочется отметить, что создание таких баз во многих западных компаниях связывают не с затратами, а с инвестициями в собственные нематериальные активы.
Наметилась еще одна интересная тенденция: перевод перестал быть прерогативой профессионалов. Как свидетельствуют исследования LISA, среди пользователей систем Translation Memory профессиональные переводчики и локализаторы (т. е. специалисты, осуществляющие перевод ПО, компьютерных игр и т. п.) составляют всего 28%, менеджеры и координаторы проектов по переводу и локализации - 39%, топ-менеджеры (CEO, президенты, высокопоставленные руководители) - 23%, инженеры и программисты - 5%, научные работники и студенты - 3%, прочие (участники опросов, не указавшие свою должность) - 2%.
При этом подавляющее большинство респондентов планируют повысить интенсивность использования технологии TM. В этом нет ничего удивительного: ведь, как показывает упомянутое выше исследование LISA, экономия затрат у наиболее активных пользователей TM достигает 600 тыс. долл. в год (при среднем показателе в расчете на одного участника опроса - 30 тыс. долл.).
Знакомимся с ассортиментом
Хотя теоретические основы технологии ТМ были разработаны еще в конце 1970-х годов, первые коммерческие версии созданных на ее базе программных продуктов появились только в начале 90-х. Примерно в одно и то же время на рынок были выпущены системы Translation Manager/2 (IBM), Transit (швейцарская компания STAR AG), Eurolang Optimizer (создана в рамках европейских проектов GETA и Eurotra MT) и, наконец, Translator’s Workbench (TRADOS, www.trados.com). Последней следует уделить особое внимание: она, можно сказать, первой разработала программу для создания и управления базами Translation Memory с механизмом alignment (синхронизации). Alignment используется для создания баз TM из параллельных текстов, уже имеющихся у заказчика. Более того, именно TRADOS ввела в обращение сам термин "Translation Memory".
Технологическое лидерство обеспечило TRADOS и первенство на рынке. В течение последующих десяти лет было выпущено еще более десятка программ Translation Memory, разработанных другими производителями; среди самых известных можно назвать системы SDLX, Deja vu, Passolo, Alchemy Catalyst и Wordfast. Тем не менее TRADOS удалось удержать свои позиции. За 20 лет существования (эта компания была основана в 1984 г.) она превратилась из маленького переводческого агентства в гранда мировой индустрии переводов и локализации. На сегодняшний день продукция TRADOS является корпоративным стандартом в подавляющем большинстве крупнейших глобальных корпораций и фактически претендует на роль общеотраслевого стандарта. Среди корпоративных клиентов TRADOS - разработчики ПО (Microsoft, SAP), производители различного оборудования (Bosch, Volkswagen, Panasonic), финансовые учреждения (Dresdener Bank), аудиторы (Ernst& Young, Pricewaterhouse, KPMG, Deloitte&Touch) и многие другие.
Сотрудничать лучше, чем конкурировать
По отношению к компании SDL вполне можно применить, слегка перефразировав, известную фразу классика: "Все счастливые компании счастливы одинаково, а каждая несчастливая несчастна по-своему". История SDL началась в тот момент, когда ее основатель Марк Ланкастер обратил внимание на то, что многие крупные софтверные компании испытывают серьезные затруднения с локализацией своих программных продуктов на другие языки. Например, Lotus, в которой работал Ланкастер, на локализацию одного из своих продуктов на японский язык потребовалось 1,5 года.
Это сейчас можно говорить, что основатель прозорливо разглядел пустую рыночную нишу и успел вовремя предложить свои услуги в этой области. А тогда, в начале 90-х, Ланкастер вместе с двумя бывшими коллегами, переводчиками с немецкого и французского, зарегистрировали собственную фирму Software Development Localisation International (SDL) с начальным капиталом 45 тыс. фунтов стерлингов и большими надеждами на успех.
Первые контракты не заставили себя долго ждать: одним из их клиентов стала, к примеру, корпорация Microsoft. Помимо локализации программного обеспечения SDL занялась также локализацией компьютерных игр, и очень скоро в числе ее клиентов оказались крупнейшие производители - фирмы Disney и Sony.
По мере роста бизнеса основатели SDL обеспокоились своим чрезмерным увлечением предоставления сервисных услуг по переводу и всерьез задумались о разработке собственного ПО, которое позволило бы повысить эффективность переводческой деятельности. Так было принято решение о создании системы Translation Memory, которая получила название SDLX.
Компания SDL сделала в своем продукте ставку на современные технологии, одной из первых реализовав полную поддержку формата баз данных TMX (Translation Memory Exchange)*1. Помимо идеологических нововведений продукт SDLX был разработан с учетом целого ряда пожеланий пользователей. Скажем, в SDLX допускается хранение нескольких вариантов перевода для одного сегмента: например, при переводе с английского на французский можно сохранять четыре варианта перевода слова chlorine (хлор):
_____
*1 TMX (Translation Memory eXchange) - независимый открытый стандарт баз Translation Memory на основе XML. TMX был создан для упрощения обмена базами TM между пользователями различных систем TM с минимальными потерями данных.
Chlorine - Chlore
Chlorine - Le chlore
chlorine - le chlore
chlorine - du chlore
Кроме того, программный продукт SDLX оказался существенно проще в освоении по сравнению с тем же TRADOS. В частности, интерфейс SDLX и служебные сообщения этой программы более понятны пользователям и не требуют от них регулярных контактов со службой технической поддержки.
Несмотря на эти обстоятельства, в SDL решили, что сотрудничество значительно выгоднее конкуренции, и в июле текущего года состоялась революционная для рынка Translation Memory сделка - произошло слияние компаний SDL и TRADOS.
Translation Memory: какие перспективы?
Что ждет рынок систем TM после такого масштабного слияния? Ответ на этот вопрос, вероятно, интересует большинство пользователей систем TM - как простых переводчиков и менеджеров переводческих проектов, так и сотрудников ИТ-департаментов, отвечающих за работу корпоративных систем документооборота. Компания SDL известна как активный и даже агрессивный игрок, поэтому рынок систем ТМ в ближайшее время неизбежно ждут перемены.
Благодаря сделке SDL, безусловно, упрочила свое положение на рынке систем Translation Memory. Известно, что SDLX была популярна в сегменте частных пользователей и рынка SOHO (малый и средний бизнес), а на корпоративном уровне позиции TRADOS всегда были существенно сильнее. Теперь SDL получила выход и на крупных корпоративных клиентов. Как заявил Марк Ланкастер, председатель совета директоров и CEO компании SDL, "отныне мы предлагаем нашим клиентам больше возможностей выбора правильной комбинации технологий, языка и профессиональных услуг для решения проблем управления глобальной информацией".
В дальнейшем представляется вероятным, что SDL переведет оба продукта TM на единую технологическую платформу и сбалансирует свой портфель, с тем чтобы избежать лишней конкуренции между продуктами, нацеленными на один и тот же сегмент рынка.
Предполагается, что одним из магистральных направлений развития TM будет курс на интеграцию с технологией машинного перевода (Machine Translation, MT). Не секрет, что до сих пор в среде переводчиков технология машинного перевода находится в положении Золушки - машинным переводом активно пользуются, не забывая при этом также активно ругать ее как совершенно непригодную для применения.
SDL проявляет в отношении MT гибкий подход. У этой компании есть своя система машинного перевода: в 2001 г. она приобрела технологию у американской фирмы Transparent Language, которая выпускала коробочные (Transсend) и серверные системы перевода. Приобретение легло в основу семейства серверных продуктов, например SDL Enterprise Translation Server, позволяющий переводить корпоративным пользователям документы, сообщения электронной почты и контент Интернет-сайтов. Помимо этого SDL также оказывает услуги по интерактивному переводу на своем сервере www.freetranslation.com. Кстати, для обеспечения перевода с русского и на русский использует модуль перевода, лицензированный у российской компании ПРОМТ (www.promt.ru ; отметим, что ПРОМТ является реселлером решений Translation Memory TRADOS и SDL в нашей стране).
Интеграция машинного перевода с технологией TM позволяет существенно снизить расходы на перевод текстов. Как правило, наличие самой обширной базы Translation Memory не гарантирует 100-процентного совпадения оригинального текста и текста, требующего перевода. Даже при высокой степени совпадения 30-40% нового текста обычно приходится переводить вручную. Наличие "под рукой" машинного перевода позволяет ускорить этот процесс. Конечно, как признают профессионалы, качество машинного перевода пока еще далеко до идеального, но технология МТ уже отличается достаточной зрелостью и ее применение дает хороший эффект. По некоторым оценкам, использование МТ повышает производительность труда переводчика на 40-60% в зависимости от сложности текста.
Стоит также отметить, что идея интеграции ТМ и технологии машинного перевода уже реализована в продукте PROMT Translation Suite. Это ПО - дебют компании ПРОМТ, хорошо известной как разработчик систем машинного перевода, на рынке систем TM. Данная программа не является конкурентом системам TRADOS и SDLX, поскольку в большей степени предназначена для тех, кто нуждается в автоматизации процесса перевода, но не готов оплачивать покупку дорогостоящих профессиональных систем TM более высокого уровня (например, TRADOS). Система PROMT Translation Suite может представлять интерес для корпоративных клиентов, научных сотрудников и других пользователей, которые по роду своей деятельности вынуждены своими силами периодически переводить различные тексты - контракты, статьи и пр. с высокой степенью повторяемости.
С Александром Андреевым, директором по маркетингу компании ПРОМТ, можно связаться по адресу: Alexander.Andreev@promt.ru.