РАСПОЗНАВАНИЕ РЕЧИ
Новые технологии призваны повышать производительность труда, и они это делают. Распознавание речи призвано упростить использование новых технологий, и оно в какой-то степени оправдывает надежды - хотя и медленнее, чем хотелось бы.
От того момента, когда можно будет вести двусторонний разговор с машиной, нас отделяет несколько лет, однако уже сегодня системы распознавания речи находят все более широкое применение в голосовых порталах и службах индивидуальной помощи. Кроме того, на их основе создаются средства голосового набора номера, автоматические операторы телефонной связи и телефонные диктофоны.
Санджи из фирмы Arial уверена, что автоматическое
распознавание речи расширит возможности сотрудничества
“Подлинным триумфом для всей отрасли распознавания речи станет тот момент, когда, позвонив по телефону, вы сможете запросто поговорить с машиной, - уверена Нэнси Джеймисон, аналитик фирмы Jamison Consulting (Вудсайд, шт. Калифорния). - И мы движемся в этом направлении”.
Клиенты часто звонят секретарю с просьбой помочь найти служащего, которого нет на рабочем месте. С учетом этого корпорация Arial Systems (Вернон-Хиллз, шт. Иллинойс) взялась за разработку модели автоматического секретаря, способного справиться с такой задачей. Лицензировав у фирмы Lernout & Hauspie Speech Products (Берлингтон, шт. Массачусетс) технологию распознавания речи, ее специалисты создали браузер ArialVoice. Он позволяет не только просматривать, но и “прослушивать” каталоги, задавая вопросы голосом, благодаря чему найти нужного сотрудника в офисе или дома можно по пейджеру, обычному или сотовому телефону.
ArialVoice распознает голосовые команды позвонившего абонента и генерирует на их основе запросы поиска информации в онлайновом каталоге ArialView. Эта база данных содержит сведения об именах и фамилиях служащих, их телефонных номерах и даже о распорядке работы (когда и где следует искать конкретного человека). Если служащий вышел из своего кабинета, система найдет его по специальному инфракрасному жетону.
Когда нужный сотрудник найден, он может сразу же ответить на звонок, поставить его в очередь, записать телефонное сообщение или переадресовать вызов своему коллеге.
“Мы добились динамической маршрутизации поступающих телефонных звонков с учетом местоположения нужного абонента, а технология распознавания голоса позволила нам значительно упростить этот процесс, - говорит Розин Санджи, директор Arial по маркетингу. - Все это значительно расширяет возможности общения в любой организации”.
В настоящее время для ArialVoice разрабатываются дополнительные компоненты. Они позволят служащим голосом сообщать о своем местонахождении и готовности ответить на входящий звонок. Правда, о сроках их появления на свет Санджи ничего не сказала.
Одно из несомненных достоинств программных систем распознавания речи состоит в том, что они очень удобны для пользователей и выгодны для компаний, которым не приходится нанимать новых операторов и секретарей.
Простота и удобство таких средств привлекли внимание фирмы Eckerd Health Services. В июле нынешнего года этот филиал корпорации Eckerd (Клируотер, шт. Флорида) ввел в эксплуатацию автоматизированную систему голосового заказа лекарств. Она, как ожидается, придет на помощь пожилым людям и тем, кто страдает серьезными заболеваниями.
Правда, развертывание средств распознавания речи вовсе не гарантирует, что клиенты сразу же начнут активно использовать их. Как показывает опыт Eckerd, большинство клиентов (65%) по-прежнему делает заказы с помощью тонового набора номера. Из остальных же пользователей 60% предпочитают живое общение с персоналом и лишь 40% обращаются к услугам системы распознавания речи.
Подобные системы сегодня применяются главным образом в центрах телефонного обслуживания, но фирма Lernout & Hauspie уже делает попытки распространить эту технологию и на другие области. В августе она представила комплект телефонных Web-услуг для здравоохранения под названием iChart. С его помощью врач сможет прямо по телефону подключиться к серверу распознавания речи на Web-узле и продиктовать результаты обследования пациента. Полученное таким способом голосовое сообщение преобразуется в текст, редактируется, проверяется на наличие ошибок и кодируется, после чего медицинские данные становятся доступны другим системам, способным обрабатывать текстовые файлы.
В последующих версиях iChart, как сообщили представители Lernout & Hauspie, сфера применения технологии распознавания речи будет расширена. Ее, например, планируется использовать для извлечения клинической информации из обычных сообщений и ее систематизации.
Для комплексных систем Lernout & Hauspie разработала прототип карманного компьютера Project Nak, в котором главным средством общения с человеком служит голосовой интерфейс. Это устройство (его коммерческий выпуск намечен на первую половину следующего года) оснащено богатым словарем, механизмом распознавания связной речи, а также средствами автоматического чтения текста, преобразующими текстовую информацию в обычную голосовую. Подобный набор компонентов дает пользователям возможность посылать и получать электронную почту, вести поиск во Всемирной паутине, делать покупки в электронных магазинах.
Предприятия надеются, что технология распознавания речи позволит наладить удобную связь с сотрудниками и клиентами, где бы те ни находились, и при этом не потребует больших затрат. Эта новинка привлекает внимание и телефонных компаний, правда, несколько с иной стороны. Они рассматривают распознавание речи как новую территорию для оказания услуг с повременной оплатой.
Услуги клиентам оказывают операторы связи, но информационное наполнение таких услуг зависит от предприятия. Это учла в своей маркетинговой политике фирма Nuance Communications (Мэнло-Парк, шт. Калифорния) при разработке Web-браузера Voyager с голосовыми функциями. Сам новый продукт создается в расчете на компании беспроводной связи, однако инструментальные средства разработки приложений и голосовые объекты к нему Nuance намерена бесплатно предлагать предприятиям.
Voyager позволит бродить по Всемирной паутине с помощью речевых гиперссылок. В настоящее время браузер проходит бета-тестирование, его выпуск намечен на IV квартал нынешнего года.
Представители Nuance и некоторые аналитики, включая президента TMA Association (Тарзана, шт. Калифорния) Билла Мейсела, уже предвидят тот день, когда для подключения к нужному абоненту будет достаточно снять телефонную трубку и произнести название требуемой компании. Все остальные операции, в том числе и маршрутизацию вызова, выполнят голосовые системы наподобие Voyager.
Некоторые компании уже движутся в этом направлении. На голосовом портале фирмы Tellme Networks (Маунтин-Вью, шт. Калифорния) в конце июля появилась новая бесплатная услуга, позволяющая найти нужного абонента и подключиться к нему с помощью простых голосовых команд.
“В конце концов должны появиться интегрированные услуги с единым интерфейсом, которые станут совершенно прозрачны для пользователя и обеспечат голосовой вызов нужного абонента”, - уверен Мейсел из TMA Association.
Уровень продаж программных средств распознавания речи, автоматического чтения текста и верификации абонента по голосу, как ожидается, к 2003 г. должен возрасти до 8 млрд. долл. (в 1998 г. оборот на этом сегменте рынка составил 450 млн. долл.) - таков прогноз фирмы H.C. Wainwright & Co.
“Подлинным триумфом для всей отрасли распознавания речи станет тот момент, когда, позвонив по телефону, вы сможете запросто поговорить с машиной...
И мы движемся в этом направлении”.