Mы набрались смелости заявить от имени владельцев звуковых карт: срочно нужны недорогие программы синтеза голоса по электронному тексту на русском языке! Проще говоря, "читалки" текстовых файлов. Настало время, чтобы компьютер заговорил на русском языке. Сама логика развития средств мультимедиа подталкивает к этому.

Какие же возможности для воспроизведения речи на компьютере имеются сейчас? Их немного. Например, можно использовать компьютер в режиме цифрового магнитофона. В самом экономном (8-битовом) режиме это будет стоить вам как минимум 10 Кб/с. Ваша система должна работать в течение нескольких часов? Считайте сами. Качество голоса при этом достаточно высокое. Однако понадобится диктор.

В некоторых случаях может выручить сжатие речи. Например, программа VoiceSqueeze (фирма Interactive Products, США) позволяет сжать речевой поток в 20 - 50 раз с сохранением качества звучания. Однако при этом качество входного сигнала должно быть тоже достаточно высоким. Могут использоваться 8- и 16-битовой режимы оцифровки при частотах от 11 до 44,1 кГц. Так, в 8-битовом режиме и при частоте II кГц достигается коэффициент сжатия 40, что дает цифровой поток 275 байт/с! В большинстве случаев этого более чем достаточно. Тем более, что распаковка файлов сжатых данных происходит в реальном времени.

Главная проблема "магнитофонного" подхода  -  необходимость предварительной записи. Это заведомо не проходит в условиях, когда озвучиваемая информация часто меняется, особенно когда она собирается из большого количества источников. Здесь не обойтись без прямого синтеза голоса по тексту.

Обидно, что несказанно хорошие программные продукты говорить не умеют. А между тем в России (и экс-СССР) история систем синтеза речи насчитывает несколько десятков лет. Наиболее известная разработка под названием "Фонемофон" была сделана в Минском институте кибернетики на основании научных результатов, полученных в МГУ. На основе принципов, впервые используемых в "Фонемофоне", в последние несколько лет были разработаны несколько продуктов соизмеримого или лучшего качества.

Здесь мы рассмотрим лишь программу Speaking Mouse российской фирмы AleBaCo, поскольку она имеется в продаже по доступной цене (в частности, в составе пакета Voice Mouse Kit фирмы Interactive Products). Программа предназначена для работы на IBM-совместимых ПК под управлением DOS (готовится Windows-версия) и позволяет читать вслух русскоязычные текстовые файлы. Speaking Mouse осуществляет настоящий синтез речи и может прочесть любой текст, не "зная" заранее его содержания. Необходимо всего лишь расставить, используя .знак апострофа, ударения (вручную либо с помощью специальной программы), например, следующим образом: в лесу’ роди’лась е’лочка. Кроме того, нужна совместимая с Sound Blaster звуковая карта и 200 Кб свободной оперативной памяти.

Возможности Speaking Mouse позволяют синтезировать мужской, женский и детский голоса различной высоты и в разном темпе по усмотрению пользователя.

Всего имеется девять градаций каждой из указанных характеристик. При необходимости специальные параметры могут быть расставлены прямо в тексте, так что легко организовать диалог и прочитать текст "в лицах". На наш взгляд, особенно хорош мужской голос.(Не знаю, курьез это или объективная реальность, но соавторы, сочиняя данный текст посредством обмена электронной почтой, пришли к этому утверждению независимо друг от друга.) Несмотря на специфический акцент, он воспринимается без напряжения и может быть рекомендован даже для работы в условиях сильных шумов. Благодаря высокому отношению "качество синтеза/цена" это действительно продукт для массового применения.

Диапазон возможных применений Speaking Mouse весьма широк. Приведем лишь только несколько примеров:

1) телефонные ответчики, в частности для чтения прайс-листов или электронной почты, поступивших в текстовом виде (а посылка электронной почты в виде ASCII-файла до сих пор считается хорошим тоном);

2) автоматические телефонные секретари, обзванивающие многих абонентов и сообщающие голосом разнообразную информацию;

3) интерактивные системы на базе персонального компьютера (например, обучающие, справочные или экспертные) с широким и заранее непредсказуемым содержанием диалога (для этих целей имеется резидентная версия программы, которая активизируется в текстовом редакторе после выделения блока, требуемого для прочтения);

4) персональные системы для лиц, страдающих недостатками зрения;

5) простые "читатели" текстов (сказок, книг) для детей и больных.

Авторы надеются, что список программ, читающих тексты, в ближайшем будущем расширится и не будет исчерпываться единственной разработкой.

Сергей Гладков, Андрей Травин

Версия для печати