”Нет акта прост Тарас познать колос”,или Не так-то просто распознать голос

 

Средства распознавания слитной речи сделали компьютерную диктовку намного более производительным занятием, однако между тем, что вы говорите, и тем, что ваш компьютер “слышит”, зачастую бывает довольно мало общего.

“Проверка боем”, проведенная сотрудниками PC Week, показала, что системы распознавания слитной речи еще не вполне готовы для повседневного практического применения в качестве альтернативного средства ввода в современных деловых приложениях. Эти продукты требуют крупных затрат на обучение и продолжительного периода работы при пониженной производительности без каких-либо реальных гарантий того, что пользователи смогут в конечном итоге диктовать сколько-нибудь быстрее, чем набивают с клавиатуры. Тем не менее эта технология много обещает в будущем, а пользователи, не имеющие возможности работать с клавиатурой, или привыкшие диктовать заметки, или работающие в специфичных приложениях, по всей вероятности, получат определенные выгоды от ее применения.

Дебра Донстон

 

Майкл Кейтон, Херб Бетони (PC Week Labs)

 

В проведенной нами “проверке боем” система распознавания речи NaturallySpeaking Preferred фирмы Dragon Systems показала себя чуть-чуть получше ViaVoice Gold - продукта корпорации IBM, однако назвать победительницей мы бы ни одну из программ не решились.

Сотрудники Тестового центра PC Week Labs совместно с независимыми арбитрами из числа пользователей и специалистов по информационным технологиям (ИТ) сравнили NaturallySpeaking и ViaVoice - основных претендентов на звание лидера рынка средств распознавания речи - по всем статьям, пункт за пунктом. Оба продукта позволяют вводить данные в режиме диктовки, но ни один из них не делает эту работу более простой или более быстрой, чем набор с клавиатуры, за исключением некоторых особых случаев.

Чтобы создать для сравнения продуктов условия, максимально приближенные к реальным, сотрудники PC Week Labs временно привлекли на роль арбитров шестерых офисных работников с весьма различным уровнем квалификации при обращении с клавиатурой и использовании компьютеров.

Кроме того, участие в оценке продуктов по таким параметрам, как производительность, простота освоения и использования, а также с точки зрения особенностей инсталляции, администрирования и развертывания, приняли представители двух корпоративных партнеров PC Week: Франк Калабрезе из корпорации Bose и Стив Куркуру из Mugar Enterprises.

Оба они заявили, что затраты на развертывание тестированных продуктов оцениваются ими в значительно большие суммы, чем цена (примерно $150) самих продуктов. Они отметили, что одно обучение системы распознаванию речи конкретного человека может отнять добрых две недели (конкретный срок зависит от того, насколько часто и активно она используется).

Привлеченные арбитры из числа пользователей и специалистов ИТ высказали ряд довольно радикальных и весьма противоречивых мнений о каждом из двух продуктов, так что в конечном итоге обе системы пришли к финишу практически на равных: NaturallySpeaking набрала 67 баллов, а ViaVoice - 63,2.

NaturallySpeaking оказалась чуть впереди благодаря несколько более широкому набору функциональных возможностей и большей простоте в использовании. В то же время полученные каждым из продуктов оценки сами по себе довольно низки; выигрыша в производительности, по мнению большинства арбитров, как такового вообще не было. Арбитры сочли, что даже в тех областях, где NaturallySpeaking обладает перед ViaVoice некоторым преимуществом, а именно в средствах редактирования документов, с помощью мыши и клавиатуры та же самая работа могла бы быть проделана намного легче и быстрее.

Реакция наших временных сотрудников показала также, что добиться от потенциальных пользователей голосования кошельком в пользу того или иного продукта будет очень и очень непросто. Отвечая на вопрос о том, как следует расценить затраты времени на изучение продуктов, один из тестеров заявил, что “это было утомительно, но в принципе полезно”. Другой же арбитр признал оба продукта совершенно ненужными для человека, умеющего печатать.

Сотрудники Тестового центра PC Week Labs предложили каждому из арбитров оценить производительность NaturallySpeaking и ViaVoice, сравнив число ошибок и скорость ввода с теми же показателями при наборе текста с клавиатуры.

По мнению четверых из шести привлеченных офисных работников, продукт IBM делал значительно меньше ошибок, чем пакет Dragon, но двое других оценили достоинства ViaVoice в этой области настолько низко, что итоговый счет оказался для него приблизительно таким же, как и для NaturallySpeaking.

Все арбитры отметили, что система NaturallySpeaking распознавала речь более качественно в режиме речевого управления компьютером - при подаче команд ориентирования и редактирования (см. также врезку “Средства речевого управления почти готовы для практического применения”).

На судей произвела хорошее впечатлевпечатление способность обоих продуктов адаптироваться к самому разнообразному лексикону, однако они отметили, что ViaVoice испытывает затруднения с длинными сложными предложениями, а NaturallySpeaking спотыкается на знаках препинания и омонимах.

Кроме того, продукты очень по-разному справлялись с фоновым шумом. Для имитации реальной обстановки мы проводили тестирование в шести офисных “сотах”, расположенных в два ряда по три комнатушки, что позволило сымитировать весьма зашумленное рабочее место. Способность ViaVoice понимать речь одного из арбитров резко пошла на убыль, когда рядом с его комнаткой собралась побеседовать небольшая группка людей. Использовать систему стало практически невозможно.

Качество микрофонов, которые включаются в комплект поставки, также играет большую роль. Показатели распознавания сильно зависели от правильности их использования. Поставляемые с продуктами IBM и Dragon микрофонные гарнитуры представляются нам в целом вполне сравнимыми по характеристикам, однако при использовании микрофона IBM у нас возникли некоторые затруднения с определением того, правильно ли он ориентирован. Направленный микрофон Dragon имеет специальную красную точку на корпусе, по которой мы могли с этим определиться. Что, впрочем, не помешало нашим временным коллегам основательно помучиться с ориентацией как одного, так и другого микрофона.    

 

Как проходило тестирование

Испытания заняли два рабочих дня, приблизительно по 8 часов каждый. Арбитры проводили тренировку пакетов, надиктовывая специальные одно- и двухстраничные документы. Затем они вводили второй документ с клавиатуры, чтобы сравнить производительность диктовки с производительностью печати. Высокое качество распознавания (с уровнем ошибок всего в 3 - 5%) достигалось очень быстро, однако ни одному из арбитров не удалось диктовать быстрее, чем он набирал текст с клавиатуры. Причина этого, по общему мнению нашего судейского корпуса, кроется в том дополнительном времени, что требуется на исправление ошибок распознавания и форматирование документов. “Выделять и исправлять ошибки с помощью мыши совсем нетрудно, - заметил один из участников испытаний, - однако я предпочел бы обходиться без мыши, а в тестированных продуктах это довольно сложно”.

Как ViaVoice (сверху), так и NaturallySpeaking (снизу) требуют, чтобы новый пользователь зачитал сначала вслух

предложенный ему текст (чтобы система могла “составить представление” об особенностях его речи -“пользовательский

профиль”). NaturallySpeaking выводит текст на экран крупными фрагментами, что позволяет читать его в более

естественной манере, чем при работе с ViaVoice, который показывает по одному предложению зараз

В первый день судьям потребовалось на выполнение задания по работе с текстом 8 часов. Но уже на второй они сумели проделать ту же работу за утро. (Участники тестирования были поделены на три группы: первая начала оценивание с NaturallySpeaking, вторая - с ViaVoice и третья - со специализированного пакета речевого управления VoiceCommands фирмы Lernout & Hauspie Speech Products USA, о тестировании которого рассказано во врезке “Средства речевого управления почти готовы для практического применения”.)

При испытаниях присутствовали представители IBM, Dragon Systems и Lernout & Hauspie. По их словам, требуется хотя бы пара недель периодического использования продукта, чтобы достичь наивысшего возможного качества распознавания. В течение всего этого периода пользователям неизбежно придется заниматься ручной корректировкой ошибок речевого ввода с помощью специальных средств, предусмотренных как в ViaVoice, так и в NaturallySpeaking. Для сравнения, курс машинописи в средней школе состоит приблизительно из 50 часов обучения.

Арбитры нашли все продукты довольно близкими по простоте использования, однако каждый из них обосновал это свое мнение иначе, чем другие. Судьи работали исключительно с теми приложениями, которые прилагаются к каждому из пакетов, что позволило осуществлять ориентирование и работать с возможностями интерфейса пользователя полностью в речевом режиме.

Один из судей испытывал трудности с определением текущего режима работы ViaVoice - командного или режима диктовки, однако все сошлись во мнении, что синтаксис ViaVoice проще в освоении и в достижении “вершин мастерства”. Отчасти арбитры приписали это тому обстоятельству, что все принятые в системе соглашения изучаются еще на стадии тренировки системы.    

 

Первоначальное обучение

На стадии тренировки системы, когда пользователь декламирует определенные фразы, а пакет изучает особенности его произношения и интонации, нам удалось обнаружить неожиданные эффекты. Все арбитры, нисколько не колеблясь, отдавали предпочтение комплексу упражнений по тренировке NaturallySpeaking, что в значительной мере объясняется более удачным подбором текстов. Кроме того, если пакет NaturallySpeaking не распознает фразу на этой стадии работы, он просит пользователя повторить только то слово или те слова, которые ему не удалось разобрать. ViaVoice, в противоположность ему, требует повторения целого предложения.

В ViaVoice используются специальные соглашения для ввода знаков препинания, с ними пользователь знакомится по ходу тренировки системы. Благодаря этому участники наших испытаний оказывались, по их собственному мнению, лучше подготовлены к последующей рабочей диктовке. В комплекте NaturallySpeaking тоже есть специальное средство, облегчающее пользователю освоение команд ввода знаков препинания, но оно является частью отдельного приложения. Преимущества интеграции процессов тренировки пользователя и системы представлялись очевидными и для представителей наших корпоративных партнеров. Они отметили, что их конечные пользователи, скорее всего, просто проигнорируют “необязательную” тренировку, предлагаемую NaturallySpeaking, из-за того, что функции тренировки системы и обучения пользователя никак между собой не связаны.    

 

Век живи, век учись

Для описания образа действий пользователя на стадии тренировки системы в документации как одного, так и другого продукта применен термин “слитная речь”. Один из участников наших испытаний понял его слишком буквально: он старался произносить целые предложения “в одно слово” и потом очень удивлялся, что “она лучше понимает меня, когда я говорю нормально, чем когда слитно”.

Диалоговое окошко выбора варианта в пакете NaturallySpeaking Preferred (слева) предлагает пользователю выбрать

одно слово из ряда наиболее близких к нераспознанному (по мнению машины). Пакет ViaVoice Gold корпорации

IBM (внизу) тоже представляет список похожих слов на выбор, но он еще и произносит вслух сомнительное слово

Еще одному арбитру пришлось выполнить процедуры тренировки NaturallySpeaking дважды. После первого раза он случайно неправильно прореагировал на предложение программы сохранить результаты тренировки. Это стоило ему еще одного часа работы. Возможности напрасной потери времени весьма обширны и разнообразны при применении каждого из двух продуктов. Наши арбитры сочли качество документации NaturallySpeaking более высоким по сравнению с документацией ViaVoice, однако это никак не отразилось на скорости освоения ими продуктов. Очень часто нам приходилось слышать от участников мнение, что они смогли бы добиться лучших результато в применении тестируемых продуктов, если бы имели больше времени на их изучение. (Все арбитры пользовались тестируемыми продуктами исключительно в ходе наших двухдневных испытаний.)    

 

Слушаю и повинуюсь

Хотя функции речевого управления встроены как в NaturallySpeaking, так и в ViaVoice, мы решили рассмотреть их отдельно, чтобы сравнить со специализированным пакетом VoiceCommands производства фирмы Lernout & Hauspie.

В целом функции речевого управления продуктов Dragon и IBM не произвели большого впечатления на судей, - по их мнению, с применением мыши и клавиатуры для ориентирования в документах и форматирования работа идет намного быстрее.

В то же время они отметили, что NaturallySpeaking предлагает в этой области заметно больше возможностей, чем ViaVoice. Они нашли, что ориентироваться в документах, как и форматировать их, с помощью NaturallySpeaking проще. Этот пакет обеспечивает встроенную поддержку речевого управления такими операциями, как, например, смена размеров шрифтов. В ViaVoice для выполнения тех же самых операций необходимо создавать специальные макроопределения.

В процедурах инсталляции рассматриваемых пакетов и их требованиях к системе нет ничего особенного. Для работы NaturallySpeaking нужен процессор Pentium с тактовой частотой 133 МГц и 60 Мб свободного дискового пространства; для ViaVoice - процессор Pentium с технологией MMX и тактовой частотой 150 МГц, а также 125 Мб свободного места на жестком диске. Каждому из пакетов необходимо 32 Мб ОЗУ для работы в ОС Windows 95 и 48 Мб - для работы в Windows NT.

Обе системы позволяют заводить по нескольку пользовательских “профилей” на одной машине. Это может оказаться полезным для случаев, когда нескольким людям приходится работать на одном ПК. Кроме того, это может представить интерес для тех, кто использует ПО распознавания речи как для диктовки, так и для расшифровки диктофонных записей - поскольку микрофон этого устройства, скорее всего, будет обладать не такими характеристиками, как поставляемый в комплекте с ПО.

Ни один из протестированных продуктов не рассчитан на работу в сети, что еще сильнее ограничивает возможности их применения в корпоративном обиходе. Учитывая затраты времени, необходимые для формирования пользовательского “профиля”, было бы очень удобно предусмотреть хотя бы возможность хранения этих профилей на сетевом сервере, где с них регулярно делались бы резервные копии.

 

NaturallySpeaking Preferred (Dragon Systems)

ViaVoice Gold

(IBM)

Итоговый счет

67,0

63,2

Рабочие характеристики (30%)

68

66,2

 Точность распознавания речи; Скорость диктовки; Повышение производительности труда; Способность к фильтрации фонового шума; Точность речевого управления

Простота использования (30%)

70

69

 Степень интуитивной ясности пользовательского интерфейса; Возможности настройки команд; Командный синтаксис; Качество синтеза речи

Простота освоения (20%)

68

66,7

 Тренировка системы для распознавания речи конкретного человека; Документация; Оперативная справочная подсистема

Речевое управление (15%)

62

44

 Навигация в документах; Редактирование документов

Простота инсталляции (5%)

53,3

53,3

 Процедура инсталляции; Инсталляция и распространение ПО в сети; Уровень требований к системе

Для получения оценки по каждой из приведенных в таблице позиций (например, рабочие характеристики) мы сложили с весами усредненные оценки арбитров по каждому из составляющих критериев (перечислены после оценки) Итоговый счет получен сложением результатов по отдельным позициям с учетом их весов Подробные результаты тестирования опубликованы в Web по адресу www.pcweek.com/link/0302

Версия для печати