Норман Бартлетт
В 70-х на переднем крае речевых технологий оказались советские ученые, специализировавшиеся на фундаментальных исследованиях теории языка. Их достижения легли в основу многих современных продуктов, однако, как бы велико ни было значение этих исследований, больше всего нынешним изобилием продуктов, основанных на речевых технологиях, мы обязаны рыночным механизмам. Они же обеспечили и снижение цен до их нынешнего уровня. Например, система речевого управления производства фирмы Dragon Systems - одного из лидеров в этой области - стоила в дни 386 процессора $5000, а теперь ее можно купить за $320.
Чтобы не запутаться в изобилии продуктов, следует помнить, что существует всего две основные технологии: распознавание речи и синтез речи. Первая обеспечивает ввод речевой информации в компьютер, вторая - вывод.
Продукты, основанные на технологии распознавания речи, можно разделить на три большие группы:
- средства речевого управления;
- средства диктовки;
- средства идентификации по образцу речи.
Центральным элементом любого продукта, относящегося к одной из перечисленных групп, служит механизм распознавания речи - существующий самостоятельно или в виде набора алгоритмов, реализованных в пакете ПО. Большинство механизмов распознавания речи состоит из четырех основных блоков: препроцессора, экстрактора, компаратора и интерпретатора.
Прежде чем перейти к подробному рассмотрению функций каждого из них, позвольте предложить вам рассказ о некоторых реальных продуктах, представленных на прошедшем некоторое время назад в Лондоне Втором европейском симпозиуме по речевым технологиям.
СРЕДСТВА РЕЧЕВОГО УПРАВЛЕНИЯ
Продукты этой группы появились на рынке первыми. Заложенная в них основная идея заключается в том, что человек обращается к компьютеру с некоторыми словами, тот его понимает и выполняет требуемые действия. Наибольшей популярностью приложения этой группы пользуются у различных телефонных служб. Автоматические справочные системы применяются многими телефонными компаниями в Европе и Америке. Только обслуживание абонентов, желающих узнать нужный номер, обходится приблизительно в 2 млрд. долл. ежегодно, так что применение технологий распознавания речи способно сэкономить значительные суммы.
Распознавание чисел можно считать на сегодняшний день уже зрелой технологией. Компьютеры способны распознавать слова, обозначающие числа, на двадцати различных языках. Правда, необходимо, чтобы пользователь называл цифры последовательно, одну за другой и входил в положение машины, учитывая испытываемые ею трудности. Например, говоря с компьютером по-немецки, принято для обозначения цифры два использовать слово zwo, в не zwei, поскольку последнее слишком легко спутать с drei. Эта маленькая хитрость сильно способствует повышению качества распознавания речи.
Сложнее добиться от людей отказа от некоторых других укоренившихся привычек в произнесении числительных. Например, в Швейцарии принято произносить телефонные номера, разбивая их на пары цифр, например, 34 57 23 91, а не по одной цифре. А во Франции способ образования числительных с 80 по 99 вообще оставляет место для неоднозначного толкования. Например, 92 звучит так же, как 4-20-10-2 (“quatre-vingt-neuf-deux”).
Следующим шагом после распознавания цифр стало распознавание имен. Некоторые способные на это системы уже используются компаниями в их внутреннем обиходе. Nortel, например, располагает телефонным коммутатором, срабатывающим, если вы назовете имя вызываемого абонента. Эта система функционирует на базе внутренней АТС компании и действует приблизительно следующим образом: вы снимаете трубку, набираете определенную цифру и произносите нужное имя. Система повторяет имя, как она его поняла, вы подтверждаете правильность, и она соединяет вас с нужным абонентом.
На практике возникают некоторые сложности, связанные с особенностями речевого поведения человека. Например, в России системе придется искать в своем каталоге Владимира, когда у нее попросят Володю, или Ивана вместо Вани. “Пользоваться уменьшительными именами совершенно естественно для человека, но машину это может сбить с толку, - сетует старший менеджер Nortel по технологии Open Speech Раймонд Кенуорси. - Из-за этого нам приходится вводить в базу данных синонимы. Так, на 750 человек, работающих в нашем монреальском офисе, пришлось завести 190 лишних записей”.
Кроме того, когда впечатление новизны улетучилось, пользователи обнаружили, что система медлительна в работе. Многим принятый в ней способ вызова абонента по имени показался не слишком удачным с точки зрения соблюдения конфиденциальности. Всплыли и другие недостатки.
“Обычно, если система неправильно распознает названное ей имя, человек просто вешает трубку и повторяет все сначала, - объясняет Кенуорси. - Но некоторые пользователи, не задумываясь над тем, с кем они разговаривают, автоматически произносят “нет” в ответ на оплошность машины. В последней версии системы мы предусмотрели обработку этого случая, так что стиль общения с ней стал еще ближе к естественному”.
Более сложная система используется компанией Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка. Она зарегистрирована в США, но имеет представительства и в других странах. Система Charles Schwab ежедневно обрабатывает по 50 000 звонков - полностью автоматически. Она предназначена для ответа на вопросы о цене популярных на рынке акций.
Слова вызывающего абонента анализируются механизмом распознавания речи, разработанным в фирме Nuance Communications. Он преобразует человеческую речь в последовательность цифровых данных, которая используется затем для извлечения информации из БД системы. Механизм синтеза речи генерирует по этим данным речевой ответ.
Не хочу, чтобы по приведенному описанию у вас сложилось чрезмерно упрощенное представление о реальности. Хотя бы потому, что обучение пользователей в данном случае невозможно. Когда система задает человеку вопрос, например, о названии компании, она может получить ответ в нескольких формах - и все, с точки зрения человека, одинаково правильные. Так, “Digital Equipment Corporation”, “Digital Equipment Inc.” и “DEC” - в одинаковой степени принятые названия одной и той же организации. Кроме того, человек обычно не сразу находится с ответом и нередко заполняет образовавшуюся паузу всякими “э-ээ” и “м-мм”. Произношение имеет региональные особенности. Разговор может происходить на фоне сильных шумов.
Несмотря на все эти проблемы, система Schwab, как утверждается, обеспечивает 95%-ную точность при обработке примерно 10 тыс. названий компаний и десятков видов ценных бумаг (обычные и привилегированные акции, опционы, векселя и т. д.). Столь низкий уровень ошибок распознавания позволил Schwab обеспечить многие тысячи своих клиентов услугами автоматической справочной службы при достаточно скромных затратах. Однако для более ответственных приложений такой точности распознавания недостаточно.
Фирма Philips работает в данном направлении уже довольно давно. Доктор Криситьен Дюгас из Philips Dialogue Systems говорил в своем докладе на симпозиуме о трех поколениях продуктов компании. К первому относятся основанные на распознавании цифр службы, абонентам которых необходимо соблюдать строгую структуру своего обращения: сначала назвать пароль, затем свой идентификатор, после этого - число, обозначающее существо запроса. Такие системы позволяли вводить информацию как в речевой форме, так и с помощью кнопок телефона с тональным набором.
Второе поколение продуктов было основано на применении ключевых слов. Их ограниченность была обусловлена тем, что даже самую простую мысль человек способен выразить бесчисленным множеством способов. Если попытаться запихнуть в компьютер всю необходимую для их обработки информацию, он просто с ней не справится.
“Необходимо было выделять ключевые слова из "пустой породы", обрамляющей их с обеих сторон, - объяснял Дюгас. - Никто никогда не говорит просто "Манхэттен". Это слово обязательно окажется в составе какой-нибудь фразы, вроде: "М-мм, я бы хотел попасть на Манхэттен". Преодолеть эту проблему помогает введение диалога с пользователем в контролируемые рамки с помощью системы меню”.
Система Natural Dialogue System, над которой специалисты Philips трудятся в настоящее время, принадлежит к третьему поколению. Она основана на идее обучения. В течение некоторого предварительного периода система обучается на большом количестве диалогов. В ходе этого процесса строится рабочий словарь и БД отношений между отдельными словами.
Система этого типа используется швейцарской железнодорожной компанией Swiss Railways. Типичное обращение к ней клиента может звучать приблизительно следующим образом: “Я бы хотел попасть из Женевы в Цюрих через Берн”. В этом простом примере компьютер должен выделить слово “из” и связать его с названием “Женева”, определив этот город в качестве исходного пункта поездки. Аналогично, связав слова “в” и “Цюрих”, он должен определить пункт назначения. Описанная последовательность шагов называется “восприятием речи”, хотя с человеческим восприятием здесь едва ли найдется что-нибудь общее - на самом деле выполняется просто статистический расчет по максимуму правдоподобия.
“Действительно, - считает Дюгас, - с помощью тонального набора можно решать любые задачи. Но какой ценой? Удовольствия пользователю этот процесс не доставляет никакого, да и скорым его никак не назовешь, а время стоит денег, по крайней мере телефонное. Французские железные дороги используют систему на основе тональной сигнализации, и средняя продолжительность звонка составляет 2 минуты 20 секунд. Наша система, используемая швейцарскими железными дорогами, управляется в среднем за 45 секунд”.
Недавно список пунктов назначения, охваченных швейцарской системой, был расширен до 3,5 тысяч, и теперь она учитывает также автобусные маршруты и паромные переправы. Авиакомпания Lufthansa предлагает потенциальным пассажирам автоматическое расписание своих рейсов, а радиостанция Radio Luxemburg - прогноз погоды по туристическим маршрутам всего мира.
И последняя новость, сообщенная Дюгасом: “В декабре мы инсталлировали первую систему автоматических "желтых страниц" в Торонто (Канада). Она предоставляет информацию о местных ресторанах и может соединить абонента с выбранным заведением, если на то будет его желание”.
СРЕДСТВА ДИКТОВКИ
Программы этой группы применяются на практике вот уже несколько лет. Пакет ПО VoiceType корпорации IBM неплохо зарекомендовал себя в качестве средства для раздельной диктовки. А фирма Dragon Systems претендует на лавры создателя первой системы, способной воспринимать слитную речь. Системы раздельной диктовки проще в разработке и предъявляют более умеренные требования к вычислительной мощности, однако они требуют от пользователя несколько неестественного способа произношения, с короткой паузой перед каждым следующим словом. Средства распознавания слитной речи требуют более быстрых процессоров и больших объемов памяти, но зато поток слов может изливаться из пользователя безостановочно.
Продукт Dragon Systems, который называется DragonDictate, позволяет непосредственно надиктовывать текст в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и многие другие популярные приложения. Пользователь может управлять ПК голосом, в частности - позиционировать курсор мыши с абсолютной точностью. Предусмотрена последовательная система меню и команд для единообразного управления любыми приложениями, что существенно упрощает работу.
Активный словарь системы насчитывает по крайней мере 30 тыс. слов, а с учетом всех фонетических и языковых моделей - фактически вчетверо больше. Кроме того, пользователь может дополнить активный словарь многими тысячами нужных ему слов, также выпускаются готовые дополнительные словари по различным профессиональным тематикам. Особенно популярны медицинский и юридический дополнительные словари.
В комплект каждого из этих продуктов входит высококачественная микрофонная гарнитура. Ошибки распознавания можно исправлять прямо по ходу диктовки либо позднее, с помощью клавиатуры, либо в режиме речевого ввода. Предусмотрен запуск речевыми командами макроопределений, автоматизирующих ввод таких элементов, как стандартные приветствия или адреса.
Общее правило состоит в том, что чем слово длиннее, тем оно легче распознается. Смею предположить, что в отношении людей это правило действует точно так же, как и в отношении компьютеров. В число самых коротких слов, относящихся в то же время и к наиболее важным, входят буквы алфавита. Отдельные буквы важно распознавать еще и потому, что с их помощью осуществляется ввод редких или необычных слов, отсутствующих в словаре системы.
В большинстве европейских языков присутствуют близкие по произношению буквы. Например, в английском, французском и немецком языках трудно различимы на слух буквы b, c, d, e, g, p, t. В вооруженных силах, авиадиспетчерской службе и других официальных учреждениях применяется специальный “международный коммуникационный алфавит” (International Communications Alphabet), в котором на месте каждой буквы стоит кодовое слово, в нашем случае: bravo, charlie, delta, echo, golf, papa и tango. Однако рядовому пользователю необходимость учить еще один алфавит едва ли придется по душе. Поэтому компьютерам приходится самостоятельно преодолевать те же трудности, что испытывают немцы с буквами b и s, z или русские - с щ и ш.
Вот какой подход к решению этой проблемы избрали создатели Dragon Dictate - но только в отношении англоязычных американцев. Была выполнена запись того, как несколько тысяч людей произносят по буквам свои имена. Спектральные характеристики каждой буквы были проанализированы и поделены на отдельные элементы (фонемы). На этой основе для каждой буквы была создана фонетическая модель. В результате удалось добиться уровня точности распознавания между 85% и 90%. Для практических целей этого недостаточно, поэтому побуквенный ввод применяется в сочетании с проверкой по словарям.
Если последовательность букв не складывается в известное слово, запускается алгоритм корректировки.
“Каждое удаление, добавление или замена буквы оценивается определенным количеством штрафных баллов, - объясняет директор-администратор английского подразделения Dragon Systems доктор Мелвин Хант. - Алгоритм находит известное слово, соответствующее наименьшей сумме штрафных баллов... Не все замены равноценны... такая крайне маловероятная, как w на x, оценена намного дороже, чем такая распространенная, как t на p”.
Используются и некоторые другие маленькие хитрости, учитывающие особенности структуры английских слов. Первоначальное обучение было выполнено с использованием 2200 имен, и они же применяются для контроля правильности ввода. Однако не все сводится к одной статистике; человеческий фактор также принимается во внимание.
“Первым делом система определяет, кто говорит: мужчина или женщина, - и при сравнении со списком отдает предпочтение более соответствующим полу говорящего именам, - продолжил Хант. - Во-вторых, все имена делятся на распространенные и редкие и при сравнении предпочтение отдается первым. Наконец, система отслеживает громкость речи и подстраивает модели распознавания букв под ее текущий уровень”.
IBM разработала собственную систему распознавания слитной речи - ViaVoice. Она предназначается для работы дома и в офисе и продается по цене $200. С ее помощью многие виды работ на компьютере можно выполнять в речевом режиме. Например, надиктовывать текст непосредственно в Windows-приложения, включая обычные письма, отчеты и электронные почтовые отправления, открывать и закрывать компьютерные файлы, а также ориентироваться в пределах “рабочего стола”. Такие речевые команды, как file print, file save или scroll up/down, полностью заменяют соответствующие последовательности действий с использованием клавиатуры или мыши. Скорость ввода текста достигает 140 слов в минуту. Это намного быстрее, чем средний человек способен набирать с клавиатуры. Кроме того, функция синтеза речи позволяет компьютеру для контроля повторять введенный текст вслух.
В настоящее время ViaVoice существует в версиях для американского английского, британского английского, французского и немецкого языков. Начинать диктовать можно сразу же после короткого - в три предложения - курса обучения системы, однако, если не пожалеть времени на более продолжительное обучение - порядка 100 предложений, можно получить значительно более высокое качество распознавания.
СРЕДСТВА ИДЕНТИФИКАЦИИ ПО ОБРАЗЦУ РЕЧИ
“Цель распознавания речи состоит в том, чтобы понять, что человек говорит, тогда как цель идентификации по образцу речи - убедиться, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека”, - объясняет консультант по вопросам обеспечения безопасности из Чикаго Юдит Марковиц.
Идентификация по образцу речи тесно связана с биометрическими технологиями - предназначенными для идентификации людей по их уникальным физическим признакам, таким, как отпечатки пальцев или рисунок радужной оболочки глаза. Речь, подобно подписи, определяется множеством постоянных физических параметров и, кроме того, находится под влиянием текущего состояния и поведения человека.
“Особую важность с точки зрения нужд обеспечения безопасности придает технологиям идентификации по образцу речи то, что это - единственный биометрический тест, который может выполняться по телефону, - говорит главный исполнительный директор Nuance Communications Рональд Креон. - А с точки зрения конечного пользователя эта технология отличается переносимостью, оперативностью и дешевизной... голос невозможно потерять, украсть или взять взаймы”.
Все это, вероятно, справедливо, однако голос все же может быть записан и воспроизведен. Правда, при этом изменяются некоторые его тона. Тем не менее определенная возможность для введения системы в заблуждение имеется, и создатели лучших из существующих продуктов предусматривают специальные меры против подобного мошенничества.
Взаимодействие конечного пользователя с системой идентификации состоит из трех фаз: регистрации, тестирования и допуска. В процессе регистрации запоминаются особенности голоса пользователя и формируется так называемая речевая модель. При тестировании выполняется сравнение предложенного образца речи с запомненной речевой моделью пользователя, а также с моделью “самозванца”, составленной на базе голосов множества других людей. Если результат сравнения окажется положительным для первого случая и отрицательным для второго, считается, что тестирование прошло успешно. Идентификацию по голосу можно использовать и в сочетании с другими средствами обеспечения безопасности.
Применяются различные подходы к организации регистрации и тестирования. Проще всего использовать для идентификации одно ключевое слово. Оно должно быть повторено в процессе регистрации два или три раза. Такая схема отличается простотой и оперативностью, хотя пользователю приходится запоминать пароль. Однако есть некоторая доля риска, что систему удастся обмануть с использованием записи.
Несколько больше времени занимает процедура регистрации, состоящая в повторении десятка или более предложенных системой слов. Они могут быть разными для каждого пользователя. В процессе тестирования человеку предлагается произнести несколько слов из этого набора. Для каждого сеанса регистрации используются различные слова, что обеспечивает высокую степень защиты от мошенничества с записью. Тестирование в этом варианте также состоит в сравнении с моделями пользователя и “самозванца”.
Наивысший уровень безопасности обеспечивает фоновая схема регистрации. При создании своей речевой модели пользователь зачитывает предложенный ему текст или последовательность фраз. Тестирование выполняется непрерывно во все время беседы с системой, в которую вкрапляются некоторые записанные элементы. В остальном тестирование выполняется по обычной схеме. Эта процедура остается для пользователя “невидимой”.
МЕХАНИЗМЫ РАСПОЗНАВАНИЯ РЕЧИ
Над технологиями распознавания речи работает множество компаний, однако все они в основном следуют одной и той же базовой методологии, основанной на четырехэтапной процедуре. Различия сводятся к применяемым методам математического моделирования и алгоритмам. Один из ведущих поставщиков таких механизмов - фирма Learnout & Hauspie, продукт которой и использовался в качестве “натуры” для составления приведенного ниже описания.
Препроцессор, или модуль сбора данных, обеспечивает связь между аналоговым внешним миром и цифровым микрокосмосом компьютера. В число видов обработки входного сигнала могут входить автоматическая регулировка усиления, подавление эха, обнаружение присутствия/отсутствия речи и обнаружение интонационного конца фразы. Цель всей этой обработки состоит в том, чтобы передать на следующий этап как можно более качественный сигнал.
Экстрактор выполняет частотный анализ сигнала. Акустическо-фонетический поток данных разбивается на короткие кадры, или векторы, продолжительностью, как правило, около 10 мс. Эти алгоритмы обладают достаточной акустической устойчивостью благодаря адаптивности канала записи и подавлению шумов на предыдущем этапе.
Компаратор осуществляет акустическое сравнение: каждый кадр, или вектор, сравнивается с имеющимися акустическо-фонетическими образцами (субсловами). Для каждой пары вычисляется функция правдоподобия. Именно в этом модуле наука ближе всего подходит к превращению в реальную производительную силу. Речь не отличается высоким уровнем воспроизводимости, и создателям компаратора приходится пытаться воспроизвести работу человеческого мозга, который использует различные дополнительные признаки и контекст для интуитивного определения смысла сказанного.
Механизм, разработанный специалистами Learnout & Hauspie, использует в настоящее время три вида субслов: контекстно-независимые фонемы, контекстно-зависимые фонемы и модели слов. Такое разнообразие элементов отражает возрастающую степень детализации моделирования. Статистические модели базируются обычно на марковских цепях и нейронных сетях со специальными расширениями.
Интерпретатор решает задачу динамического программирования с целью найти наилучшее разбиение полученного от компаратора “алфавитного” потока на слова и фразы. В зависимости от объема используемого словаря и действующих синтаксических правил применяются различные стратегии поиска и отсева.
Итак, механизм распознавания речи завершил свою работу и выдал на-гора поток слов и предложений. Чтобы воспользоваться этим его конечным продуктом из некоторого приложения, необходим интерфейс прикладного программирования (API). API дает разработчикам средства управления механизмом распознавания. В частности, он охватывает такие административные функции, как перемена языка, пользователя или рабочей среды, запуск или остановка процесса распознавания, выборка результатов. Возможно применение отдельных версий интерфейса для различных аппаратных платформ, таких, как 486, Pentium, SPARC или фирменные цифровые сигнальные процессоры.
Интерфейс прикладного программирования механизма Learnout & Hauspie позволяет выбирать те или иные словарные массивы, управлять контекстами, пополнять словари фонетических исключений и организовывать распознавание речи нескольких пользователей. Существуют специальные средства проектирования, предназначенные для специализации и настройки базового механизма. Например, с помощью программы Lex Tool можно легко и быстро пополнить словарь новыми словами, а с помощью редактора/компилятора грамматик BNF - построить специализированную грамматику.
СИНТЕЗ РЕЧИ
Технология синтеза речи обеспечивает преобразование любого хранимого в компьютерном формате текста в синтетическую речь, звучащую приблизительно как человеческая. Центральным компонентом этой технологии является аппаратный синтезатор речи.
Речевой вывод используется на компьютерах уже в течение некоторого времени. Однако “репертуар” первых систем был сильно ограничен. Часто в них использовалось меню, с помощью которого пользователь выбирал, какие из предварительно записанных высказываний он хотел бы слышать. Предложенный машине для воспроизведения текст сравнивался с имеющимися в БД записями, и если находились подходящие образцы, они озвучивались. Этот подход широко применяется в устанавливаемых в гостиницах телефонных “будильниках”, а также в автомобильных навигационных системах.
Более функционально полные средства, рассчитанные на универсальное применение в офисе, появились позднее. Некоторые специальные продукты, предназначенные для людей с физическими недостатками, имеют более продолжительную историю. Вот что рассказал на проходившей в 1995 г. в Вашингтоне конференции одиннадцатилетний слепой мальчик Тим Дей о том, как он осваивал компьютер: “[Braile’n’ Speak] легко запрограммировать так, чтобы она произносила вслух каждую набранную букву и каждое слово. Благодаря этому я могу сразу же обнаружить свою ошибку и легко ее исправить. Я подключаюсь к нашему домашнему компьютеру и с помощью программы PCMaster использую клавиатуру Braile’n’Speak для ввода вместо обычной... кроме того, эта программа работает как синтезатор речи - прочитывает вслух все, что выводится на экран компьютера”.
Французская компания Elan Informatique разработала программу синтеза речи ProVerbe, которая позволяет осуществлять удаленный доступ к электронной почтовой корреспонденции по телефону. Английская фирма First Byte предлагает систему Monologue, предназначенную для вычитки текста. Пользуясь ею, корректор избавляется от необходимости прочитывать текст глазами. Шведский продукт Infovox синтезирует речь на 12 различных языках и диалектах: американском и британском английском, датском, голландском, финском, французском, немецком, исландском, итальянском, норвежском и, естественно, шведском.
Сегодня рынок предоставляет широкий выбор синтезаторов речи, большинство из них укомплектовано собственным текстовым процессором. В основном синтезаторы говорят на американском английском, но некоторые способны и к другим языкам. Иногда можно выбирать и голос: нормальный мужской, нормальный женский, басовитый мужской, хриплый женский и т. д. Цены лежат в диапазоне от $150 до $1500.
МЕХАНИЗМЫ СИНТЕЗАТОРОВ РЕЧИ
Существуют некоторые аналогии между вычислительной обработкой в процессе речевого ввода и в процессе речевого вывода. Поставщики применяют различные алгоритмы, однако базовые рабочие процессы, используемые всеми пятью необходимыми модулями, остаются одинаковыми.
Задача первого этапа состоит в том, чтобы избавиться от “шума”: кавычек, скобок, апострофов и знаков препинания. Она решается модулем нормализации, который, кроме того, обрабатывает зависимые от конкретного языка сокращения, форматы дат, времени, денежных единиц, телефонных номеров и других специальных обозначений.
Модуль преобразования переводит текст из орфографического в фонетический формат (т. е. из букв в звуки). Для некоторых языков, таких, как немецкий, это достаточно легко, поскольку правила преобразования просты. В английском же, напротив, эти правила отличаются большой сложностью, а для многих случаев их и вовсе не существует. Например, окончание ough может произноситься шестью различными способами. В русском языке соответствующие правила довольно просты, но тоже есть некоторые аномалии. Такие, как непроизносимая буква й в слове пожалуйста, например. Способ воспроизведения безударного о, как, например, в кто-то, может служить еще одним примером трудности синтезирования речи на компьютере.
Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора между возможными вариантами произношения, а также ритма и интонации. Лексический анализ применяется для выяснения значения слова с учетом контекста, а синтаксический - для проверки порядка следования слов с целью расстановки акцентов.
Результатом работы модуля анализа является фонетическое представление исходного текста, которое передается на вход фонетического модуля. Здесь данные из входного потока заменяются такими элементами речи, как дифтонги, трифтонги и четырехзвучия. Все они были выделены из естественной человеческой речи, так что в них сохранены межфонемные переходы (гладкие переходы человеческого голоса от произнесения одного звука к произнесению другого). Связывание или сцепление вместе этих речевых элементов позволяет получить высококачественную синтезированную речь. Объем требуемой для хранения отдельных образцов речи компьютерной памяти составляет от 300 до 1400 Кб, в зависимости от конкретного приложения и потребностей рынка, на который оно ориентировано.
Кроме того, этот модуль обеспечивает разбиение текста на сегменты для формирования ритмического и интонационного рисунка (просодии). Обычно в литературных кругах понятие просодии связывается с рифмой и размером стиха, но в контексте компьютерного синтеза речи под этим словом подразумевается ритмический и интонационный баланс предложения. Для формирования легкой для восприятия и естественно звучащей речи хорошая просодия имеет очень важное значение. Она достигается выбором надлежащей длительности воспроизведения каждой фонемы и обеспечением гладкости огибающей звуковой последовательности.
Модуль обработки звука преобразует фонетические данные в слышимые звуковые сигналы. Он генерирует волновые последовательности с частотой дискретизации, как правило, около 10 кГц. На этой стадии осуществляется управление громкостью, быстротой речи и высотой голоса.
ЗАКЛЮЧЕНИЕ
Тридцать лет тому назад были предприняты первые робкие попытки создать компьютеры, способные говорить и слушать. Долгое время приходилось довольствоваться лишь скромными успехами, такими, как микросхема для говорящих детских игрушек, выпущенная фирмой Texas Instruments в 1979 г., - некоторые были даже склонны вообще не принимать подобные достижения всерьез. Однако все это было лишь началом долгого пути, который в начале XXI века, несомненно, приведет нас к тому, что естественная речь станет нормой общения человека с компьютером.
С автором статьи, английским аналитиком Норманом Бартлеттом можно связаться по адресу: normbart@email.msn.com.