“Проверка боем” моделирует реальную ситуацию

   

Майкл Кейтон (PC Week Labs)

   

Рассматривая средства распознавания речи в качестве альтернативного способа ввода данных, покупатели информационных технологий должны знать, как эти средства будут вести себя в руках пользователей с разной степенью компьютерной сообразительности и умения обращаться с клавиатурой.

Чтобы моделировать сообщество пользователей, представляющих персонал типичной корпорации, Тестовый центр PC Week Labs организовал временную группу из шести офисных служащих, которая в течение двух дней испытывала пакеты для распознавания слитной речи фирмы Dragon и корпорации IBM. В оценке потенциала этих систем для сферы бизнеса принимали участие также корпоративные партнеры PC Week - Фрэнк Калабриз, ИТ-менеджер из корпорации Bose (Фреймингхем, шт. Массачусетс), и Стив Куркур, специалист из фирмы Mugar Enterprises (Бостон).

Продукты NaturallySpeaking Preferred фирмы Dragon и ViaVoice Gold корпорации IBM испытывались по одинаковым сценариям, составленным в PC Week Labs. Модифицированный вариант этого сценария был также использован для оценки VoiceCommands фирмы Lernout & Hauspie Speech Products USA. Этот пакет, предназначенный для распознавания речи, работает совместно с текстовым процессором Word корпорации Microsoft, выполняя в нем командно-управляющие функции.

 

 

 

 

Херб Бетони, старший технический аналитик PC Week Labs, кратко излагает участникам испытаний основы методологии “Проверка боем” (наверху); все пакеты для распознавания речи тестировались по одному сценарию (в центре); испытания проводились в обстановке, имитирующей рабочее место сотрудника офиса (внизу)

 

 

 

 

Эффективность использования испытываемых продуктов оценивалась как по объективным, так и по субъективным критериям. Например, мы фиксировали время, требуемое для выполнения предписанных задач, а затем просили участников тестовой группы и наших корпоративных партнеров оценить производительность пакетов и свое личное впечатление о них в баллах.

Производительность оценивалась по группе критериев. Мы применяли пятибалльную шкалу, где 1 (и 2) означало неудовлетворительно, 3 - удовлетворительно, 4 - хорошо и 5 - отлично. Окончательный результат определялся путем усреднения оценок с учетом веса каждого критерия.

Процедура испытаний началась с голосовой регистрации их участников в используемых приложениях. Надев микрофоны и наушники, участники испытаний “приучали” эти приложения к своему голосу и типовым оборотам устной речи и попутно сами знакомились с их основными возможностями.

Затем участники должны были продиктовать два документа, составленных так, чтобы можно было дать оценку распознавательных способностей продуктов.

Один из них представлял собой одностраничный текст, описывающий медицинскую процедуру коррекции зрения с помощью лазера. В этом материале имелся ряд терминов, выходящих за рамки лексикона обычной разговорной речи (например, “фоторефрактивная кератектомия”, “роговица”, “эксимер”). Второй документ, посвященный благотворительности и федеральному налоговому законодательству 1997 года, занимал две страницы. Здесь не было большого количества незнакомых слов, однако текст содержал довольно запутанную пунктуацию вроде кавычек и скобок и элементы форматирования, такие, как шрифтовые выделения и подчеркивание.

Мы сравнили скорость речевого ввода данных через NaturallySpeaking Preferred и ViaVoice Gold с ручным набором на клавиатуре, а также засекли время, которое ушло у наших участников на набор и исправление текста документа по налоговому законодательству.

По данным, полученным с места постоянной работы шести участников нашей группы, скорость печати у них колебалась от 33 до 78 слов в минуту (с промежуточными значениями 35, 40, 54 и 55 слов). Наши тесты дали похожие результаты.

Чтобы создать обстановку, близкую к реальности, мы поставили ширмы и рассадили людей в изолированных секциях (два ряда по три секции). В качестве одного из элементов субъективного анализа мы попросили участников испытаний оценить их ощущение уровня шума и влияния фоновых шумов на производительность пакетов для распознавания речи.

Все три речевых пакета испытывались на настольных ПК Vectra XU 5/200 и Vectra XU 6/200 компании Hewlett-Packard с 200 МГц процессорами Pentium и Pentium Pro соответственно. В компьютеры на базе Pentium были установлены звуковые платы Sound Blaster AWE 64 Gold фирмы Creative Labs. При испытаниях Vectra XU на базе Pentium Pro были использованы совместимые с Sound Blaster звуковые платы, встроенные в системные платы.

Все шесть ПК имели 64 Мб ОЗУ и работали в среде Windows 95.

Версия для печати