ТЕХНОЛОГИИ
...действительно работают, и не где-нибудь за тридевять земель, а у нас, в России. Это убедительно показал семинар-презентация, проведенный 15 сентября Клубом голосовых технологий в Научном парке МГУ.
Представлялись программы, позволяющие управлять компьютером, подавая команды голосом (Voice Mouse для Windows и Just Voice для DOS), а также синтезатор речи (Speaking Mouse). Все продукты принадлежат американской фирме Interactive Products (1Р1), хотя в разработке первых двух российские программисты принимали значительное участие, а третий, "читающий" текстовые документы на русском языке, создан исключительно отечественными специалистами.
Объединение программы распознавания голосовых команд с синтезатором речи пополняет арсенал пользователя интерактивным аудиоинтерфейсом, что помогает снизить нагрузку на зрительно-моторные органы человека и гармонизировать работу с вычислительной техникой.
Синтезатор речи ничем особенным не поражает: традиционные проблемы с воспроизведением звуков "л" и "д" и "эффект Буратино" при синтезе женского голоса.
Программы Voice Mouse и Just Voice построены на фонетическом принципе, поэтому они не могут использоваться для ввода информации, зато "понимают" любой язык мира. "Услышав" знакомое сочетание звуков, они записывают в буфер клавиатуры связанную с ним макрокоманду. При создании рабочего словаря макрокоманды вводятся с клавиатуры, после чего пользователь произносит в микрофон кодовое слово ("тренировка" команды). Хранятся только результаты анализа фонем, каждая запись занимает около 500 байт и для словаря разумных размеров не требуется на винчестере слишком много места. В процессе работы словари динамически подгружаются в ОЗУ, а резидентная часть программ использует не более 80 Кб оперативной памяти ПК.
Спорным представляется решение разработчиков не включать в программы механизм воспроизведения записанных команд, что порождает проблему "сезама": забыв, какое слово назначено той или иной команде, придется заново "тренировать" эту команду.
Клуб голосовых технологий и московский филиал фирмы IРI занимаются интеграцией голосовых технологий в приложения третьих производителей. На сегодняшний день новый интерфейс встроен в ОС Windows 3. Ни Windows 95 (тестовая версия), Word for Windows, справочную службу "Гарант" (НПП "Гарант-Сервис"). Сделать это могут и сами пользователи, приобретя коммерческие или открытые версии продуктов.
Программы Voice Mouse, Just Voice и Speaking Mouse демонстрировались на выставке Windows Ехро’95 в Москве. Системы распознавания голоса фирмы IPI подтвердили свою надежность при работе в условиях сильных шумов |
Апогеем презентации стал, на мой взгляд, показ видеофильма, снятого в ВВИА им. Н. Е. Жуковского, где Voice Mouse применяется для управления автоматизированными подъемно-транспортными устройствами. В фильме было показано, как оператор производит стыковку груза большого веса с агрегатами подвески, отдавая команды по микрофону. Уровень шумов сервоприводов был сравним или превосходил уровень команд, тем не менее система работала безошибочно. Инженеры ВВИА рассказали, что так же надежно она ведет себя и в условиях близкого запуска реактивного двигателя, когда спектральные составляющие шума меняются от инфранизких до ультравысоких частот, а его уровень достигает 120 дб.
Из многих принимавших участие в демонстрации операторов трудности возникли лишь у двоих. Один из них картавил, и система упорно игнорировала некоторые его команды. У другого напрочь отсутствовал "командирский голос", в результате в течение его 15-минутного выступления система произвела 3 ложных срабатывания.
Под занавес семинара представитель фирмы AF Computers Юрий Шатун сыграл с компьютером в преферанс - его фирма подготовила специальную презентационную версию программы "Марьяж", управляемую голосом. Конечно, этот ход продиктован прежде всего рекламными соображениями, но кому, как не специалистам в области азартных игр, лучше знать, на что следует делать ставку?
РАФАЭЛЬ ШАМИЕВ