ТЕХНИЧЕСКИЙ АНАЛИЗ     

VXML и SALT открывают перед разработчиками широкие возможности

Благодаря появлению систем распознавания речи компании, желающие развить функциональность приложений телефонии, получили расширенный спектр возможностей. Однако новая технология потребует более высокой квалификации.

Выпуская спецификацию VXML (Voice XML) версии 2.1, консорциум World Wide Web (W3C) намерен стандартизировать некоторые усовершенствования. Речь идет о функциях, которые оставались за пределами VXML, но были реализованы в продуктах различных производителей. С помощью этой спецификации разработчики смогут создавать более устойчивые приложения и эффективнее обрабатывать исключительные ситуации. В настоящее время VXML версии 2.1 проходит последнюю стадию рассмотрения в W3C (www.w3c.org/voice).

VXML против SALT VXML пользуется популярностью у широкого круга производителей

и является хорошим вариантом перехода с существующих приложений для телефонии.

Поддержка SALT со стороны Microsoft делает эту спецификацию предпочтительной для компаний,

использующих Windows и обладающих опытом разработки приложений на базе Visual Studio .Net.

Когда организации оценивают системы интерактивного речевого ответа (IVR - Interactive Voice Response), одной из главных проблем становится выбор платформы для речевых приложений. Ею могут служить продукты, основывающиеся либо на VXML, либо на конкурирующей спецификации Microsoft - SALT (Speech Application Language Tag).

Версия VXML 2.0, которая была ратифицирована в октябре 2001 г., больше подходит для создания функционально насыщенных приложений, активно взаимодействующих с корпоративными программами и данными. Спецификация SALT, выпущенная в августе 2002 г., позволяет компаниям применять широко распространенные технологии программирования, а в перспективе даст возможность строить IVR-приложения, работающие не только с телефонами.

VXML и SALT могут существенно изменить облик компьютерной телефонии. Они связывают в едином приложении распознавание речи, DTMF (dual-tone multifrequency - двухтональный многочастотный набор телефонного номера) и TTS (text-to-speech - преобразование текста в речь). Первые программы с использованием IVR и кнопочных аппаратов нужно было разрабатывать отдельно для каждого типа телефонного оборудования. В VXML и SALT приложения создаются с помощью высокоуровневого языка гипертекстовой разметки и не зависят от аппаратной платформы.

VXML и SALT обладают одними и теми же базовыми возможностями. Они отделяют голосовой интерфейс от бизнес-логики и данных. Оба определяют, как приложение будет взаимодействовать с пользователем. Обработка голосовой информации производится на основе грамматик, а ввод команд посредством нажатия кнопок на телефоне - через DTMF.       

 

VXML и SALT: платформы для речевых приложений,

 IVR-приложения, созданные с помощью инструментов, использующих VXML или SALT, имеют много общего.

Процессор распознавания речи преобразует передаваемые по телефону голосовые команды в данные,

которые благодаря наличию тегов VXML или SALT может обрабатывать сервер Web-приложений.

С помощью таких тегов контролируется процесс обработки телефонного вызова, когда пользователю

предлагается отвечать на запросы системы. Каждый сервер Web-приложений может обращаться к

корпоративным базам данных и прикладным системам. VXML пользуется широкой поддержкой

поставщиков традиционных речевых приложений. В то же время SALT позволяет использовать

для работы с подобными прикладными системами ПК и PDA.

В обеих технологиях используется техника разработки Web-приложений. Страницы создаются с помощью тегов XML (VXML) или HTML (SALT), которые управляют работой приложения и обрабатывают вводимые пользователем сигналы - речь либо нажатие кнопок.

SALT с точки зрения архитектуры отличается от VXML тем, что позволяет создавать мультимодальные прикладные системы: соответствующее голосовое приложение может существовать в иных формах и работать с другим интерфейсом, например с Web-браузером.

Другое различие, имеющее большое практическое значение, заключается в тесной интеграции SALT со средствами разработки Microsoft, а именно с Visual Studio .Net. Эта интеграция позволяет создавать речевые приложения любому, кто знаком с Visual Basic или другими языками из состава Visual Studio.

С другой стороны, VXML поддерживается большинством производителей традиционных приложений для IVR и телефонии. Это открывает перед компаниями более широкие возможности выбора платформ и языков программирования.

Парадигмы разработки

В VXML под приложением понимается набор документов, управляющих его работой в процессе диалога с пользователем. Диалог обычно организуется с помощью наборов меню и форм. Грамматики представляют собой хранящийся в отдельном файле перечень возможных ответов на каждый пункт диалога, который может вестись с использованием речевого ввода или DTMF.

Упомянутые документы пишутся на языке XML. Благодаря этому разработчики могут определять правила взаимодействия пользователя с программой. Например, в приложении по продаже авиабилетов разработчику не составит труда создать набор документов, который проведет клиента через все этапы процесса заказа. Можно также предусмотреть систему подменю, необходимую для получения информации о самой авиакомпании, о времени полета, периодичности рейсов и порядке оплаты билетов. Помимо этого VXML позволяет разработчику выбрать подходящий для каждого случая способ ввода информации - речь или DTMF. А пользователь получает возможность конкретизировать свой выбор в рамках той грамматики, что включена в приложение.

В SALT работой приложений управляют такие элементы, как Prompt, Listen и DTMF. Директива Prompt определяет, каким образом приложение приглашает пользователя ввести информацию, и может обрабатывать информацию из текстовых файлов и переменных, которые преобразуются в речь и записываются в виде аудиофайлов.

Listen контролирует речевой ввод информации, предназначенной для приложения или грамматик. Эта директива поддерживает ряд тегов для контроля за взаимодействием между вводимой информацией и прикладной логикой. Кроме того, при отладке приложений или систем распознавания речи разработчики могут использовать Listen в качестве средства диагностики.

Директива DTMF сходна с Listen, но обрабатывает информацию, вводимую посредством нажатия кнопок на телефонном аппарате.

Microsoft спроектировала SALT таким образом, чтобы обеспечить взаимодействие через различные интерфейсы. Это позволяет разработчикам при смене интерфейсов, выбор которых очень широк - от Web-браузера до персонального цифрового секретаря (PDA), повторно использовать фрагменты приложения.

В такой мультимодальной прикладной системе теги SALT встраиваются непосредственно в Web-страницу. Пользователь, открывший эту страницу на своем ПК, может взаимодействовать с нею посредством клавиатуры или голосовой команды, которая распознается на его машине. Если применяется менее мощное устройство, такое как PDA, распознавание речи может производиться на сервере подобно тому, как это происходит с командами, передаваемыми по телефону.

Предпринимаются попытки перенести часть элементов SALT в VXML. Microsoft входит в рабочую группу Voice Browser консорциума W3C, в которой участвует ряд компаний (в частности, Intel), также поддерживающих обе платформы - VXML и SALT. Ожидается, что элементы SALT будут включены в третью версию VXML. Первый черновой вариант VXML 3.0 должен появиться в конце следующего года, а окончательная версия стандарта - в 2007 г.

С техническим аналитиком Майклом Кейтоном можно связаться по адресу: michael_caton@ziffdavis.com.

Версия для печати