ТЕХНИЧЕСКИЙ АНАЛИЗ

Пока преобладают вертикальные приложения, и еще не решен ряд проблем

Херб Бетони (PC Week Labs)

Конечно, с сокращением продолжительности обучения и расширением возможностей круг пользователей ПО распознавания речи значительно расширится, а компании начнут готовиться к перестройке своей работы; однако есть все основания думать, что многим из тех, кто работает в современных офисах, эта технология никогда не понадобится.

Недавний выпуск целой серии речевых продуктов компаний Lernout & Hauspie Speech Products U.S.A., Dragon Systems и IBM показывает, что ПО распознавания речи уже достигло уровня реальной применимости, но только для избранных групп пользователей. Сокращение сроков обучения и появление более быстрых процессоров ускорят внедрение речевых технологий в широкий круг вертикальных приложений, таких, как телефонные системы выбора и оформления заказов.

Очевидно, что те пользователи ПК, кому постоянно приходится диктовать тексты, - юристы, врачи и т. д. - расценят новые приложения для распознавания речи и более удобные записывающие устройства как средство экономии времени.

Вероятно, речевые технологии пригодятся и во многих других специальных сферах деятельности. Так, сейчас разрабатываются приложения, которые упростят составление полицейских рапортов и заполнение форм торговых заказов.

А что делать остальным?

Однако речевые технологии вряд ли впишутся в повседневный трудовой быт основной массы работников сферы бизнеса. Громкая диктовка в компьютер подходит лишь тем пользователям, кто имеет счастливую возможность сидеть в отдельной комнате. Будут мешать и неизбежные телефонные разговоры, пусть и очень короткие. А если кто-то будет постоянно бубнить за перегородкой, работа в такой атмосфере для большинства служащих станет невыносимой пыткой.

Выходящая в сентябре новая версия ПО распознавания речи NaturallySpeaking фирмы Dragon обеспечит голосовое управление Web-браузером. Но хотя навигация без помощи рук наверняка понравится владельцам домашних ПК или тем, кто работает за закрытой дверью, она неприменима в обычных офисных помещениях, где громкие команды, адресованные браузеру, станут дополнительным фактором шума.

Долго ли можно выдержать, если ваш коллега будет выкрикивать инструкции типа “back”, “pcweek.com”, “search”, осуществляя навигацию в Web? Активное использование голоса расстроит нормальную работу многолюдных офисов вне зависимости от содержания произносимых слов. (Дополнительные сведения о планах производителей упростить Web-навигацию с применением голоса можно найти по адресу: www.zdnet.com/pcweek/stories/news/0,4153,410766,00.html.)

С другой стороны, как бы ни относились пользователи к возможности вести диалог со своим компьютером, нужно иметь в виду, что ПО распознавания речи предъявляет довольно серьезные требования к аппаратуре. Необходимо иметь настольный ПК по крайней мере с 200 МГц процессором Pentium II и ОС Windows, не меньше 64 Мб системного ОЗУ и звуковую плату.

Большинство ПК, которые организации приобретают сегодня, удовлетворяют этим требованиям и даже превосходят их, однако огромная масса ранее установленных компьютеров имеет меньшую память и более медленные процессоры, чем нужно для нормальной работы речевых приложений.

ИТ-отделы ныне целиком загружены проектами по 2000 году, развертыванием пакетов офисных приложений, обучением пользователей и тому подобными заботами и лишь в последнюю очередь могут заниматься модернизацией настольной аппаратуры и обеспечивать поддержку речевого ПО, которое требует серьезной подготовки пользователей.

В чем суть усовершенствований

Испытания в Тестовом центре PC Week Labs, проведенные с рядом новых и усовершенствованных старых речевых продуктов, показали, что приложение Voice Xpress Professional 4.0 фирмы L&H (оно стоит 149 долл.) стало заметно точнее распознавать слова. Нашим излюбленным тестом является фраза “It isn’t easy to recognise speech” (распознавать речь не просто), и программа правильно поняла ее всего с двух попыток.

Хотя это намного лучше того, что показали другие протестированные нами продукты, желательно иметь правильный результат уже с первого раза. Продукт L&H в среднем обеспечивает точность около 96%, однако если речевое приложение претендует на широкое корпоративное использование, по нашему мнению, оно должно работать с точностью 99%.

Voice Xpress Professional - это самое простое в использовании ПО распознавания речи, с которым нам доводилось иметь дело. Все другие приложения, включая NaturallySpeaking фирмы Dragon, ViaVoice корпорации IBM, FreeSpeech компании Philips Consumer Electronics и предыдущую версию Voice Xpress, обеспечивают достаточную точность лишь после продолжительного обучения программы на базе шаблонов пользовательской речи.

Успешное обучение ПО обычно занимает от 30 минут до часа, иногда и больше, так что у большинства пользователей на него просто нет времени. Вдобавок при повреждении или утрате файла с данными обучения всю работу приходится проделывать заново.

В противоположность этому Voice Xpress Professional сокращает утомительную процедуру предварительной настройки ПО до 10 минут и меньше. В наших тестах она занимала всего 8 минут.

ПО распознавания речи должно развиваться в сторону уменьшения затрат времени и труда пользователей на этапе начальной настройки, и потому другим производителям неплохо было бы последовать примеру L&H и резко укоротить процесс обучения своих приложений.

За стенами офисов

Одним из лучших путей использования речевых приложений и естественным расширением технологии распознавания речи является перевод в текст речи, записанной с помощью карманного диктофона. Хотя большинство пользователей, особенно работающих в тесных помещениях, пока не проявляют желания разговаривать со своими ПК, им будет гораздо проще иметь дело с диктофоном, который к тому же можно эффективно использовать в дороге, например в автомашине или в аэропорту.

Как Dragon, так и L&H в комплекте со своими приложениями поставляют карманные устройства записи речи. Мы считаем, что продукт Voice Xpress Mobile Professional фирмы L&H, предлагаемый в комплекте с цифровым диктофоном DS-150 компании Olympus Optical за 229 долл., прекрасно подходит для быстрой записи кратких заметок с их последующим переводом в текст. Благодаря малым размеру и весу Olympus DS-150 удобнее в дороге, чем более громоздкий цифровой диктофон Naturally Mobile фирмы Dragon.

Приложение FreeSpeech 2000 компании Philips не имеет в своем комплекте диктофона, но зато оснащено компактным микрофоном с наушниками под названием SpeechMike, предназначенным для ввода речевой информации. К SpeechMike прилагается двухкнопочный трекбол, поэтому пользователь может одновременно диктовать текст и вести навигацию. Хотя это устройство создает дополнительные удобства при работе с речевым приложением, мы предпочли бы комбинацию микрофона и мыши.Со старшим аналитиком Хербом Бетони можно связаться по адресу: herb_bethoney@zd.com.

Распознавание речи остается делом будущего

Некоторые препятствия на пути к широкому применению ПО распознавания речи уже устранены

- Высокие требования к аппаратуре становятся достижимыми с выпуском более мощных компьютеров, например ПК на базе Pentium II с тактовой частотой 400 - 600 МГц.

- Точность распознавания непрерывно повышается, а предварительная настройка ПО стала требовать гораздо меньше времени, что упростило его использование.

Но ряд препятствий пока сохраняется

- Поддержка со стороны ИТ-персонала по-прежнему остается обязательной, особенно при использовании старых моделей ПК.

- Выполнение команд и управление функциями компьютера все еще осуществляются в обход ОС, что сужает возможности ПО.

- Шумовое воздействие речи в условиях тесных рабочих помещений остается досадной проблемой, которую вряд ли удастся решить полностью.

О мнениях аналитиков можно узнать через Webcast

Желающим увидеть изображение некоторых из новых устройств распознавания речи и ознакомиться с соображениями аналитиков по поводу программного и технического обеспечения этой развивающейся области ИТ мы рекомендуем посетить страницу Webcast (www.pcweek.com/webcast/lev.html) на сайте PC Week.

Бетони и его коллега Кристофер Йейтс сходятся во мнении, что шумовое воздействие голоса препятствует применению речевых технологий в многолюдных офисах, но оба они признают и то, что некоторые из компактных и облегченных устройств цифровой записи речи могут реально помочь пользователям в речевом общении со своими ПК.

Йейтс (слева) и Бетони из PC Week Labs обмениваются мнениями

Эти устройства легко умещаются в кармане и очень удобны в обращении. Они позволяют производить запись речи вне рабочих помещений и вдали от посторонних лиц, а затем записанное переносить на ПК.

Адрес сайта Webcast: www.pcweek.com/webcast/lev.html.