Интернет сегодня - это огромная паутина, соединяющая различные компьютерные сети всего мира. Конечно, со дня своего появления он претерпел множество изменений, касающихся хранения, передачи и выдачи информации конечному пользователю, но для доступа к нему мы по старинке используем все те же клавиатуру и мышь. Однако желание производителей встроить доступ в Интернет в мобильные телефоны, автомобильные навигационные системы и даже в обычный проводной телефон требует кардинального пересмотра этой ситуации.
Уже существует множество приложений голосового доступа к хранимой информации. Они строились в основном на расширенной версии стандартного языка разметки HTML и до недавнего времени были несовместимы, поскольку решали специализированные задачи.
Обычно после множества собственных разработок и вытекающих отсюда конкурирующих стандартов силы производителей соединяются и появляется универсальный стандарт. Голосовые приложения повторили тот же путь, и в мае этого года был стандартизован международный язык голосовой разметки VoiceXML (Voice eXtensible Markup Language), разработанный и продвигаемый форумом VoiceXML, в который входит уже более 150 компаний. Благодаря всесторонней поддержке стандарта со стороны крупнейших компаний, основавших этот форум, и многих лидеров речевых технологий, возможно, не за горами время, когда голосовые технологии в Интернете станут реальностью и Сеть выйдет на принципиально новый виток развития.
Новая веха в истории Интернета
Известно, что любому речевому синтезатору, обрабатывающему входную текстовую информацию, необходима специальная информация о структуре текста. Поэтому многие системы преобразования текста в речь (TTS, Text to Speech) поддерживают свои специфические управляющие последовательности, зависимые от конкретной системы синтеза речи и несовместимые с другими программами этого типа. У VoiceXML, конечно же, были предшественники. Так, компания Lucent Technologies разрабатывала свой язык голосовой разметки SABLE, Motorola, в свою очередь, создала VoxML, AT&T также трудилась над собственным стандартом. Все эти продукты долго разрабатывались и были независимы друг от друга. Например, язык SABLE, который создавался с сентября 1997 г., уже изначально включал в себя два стандарта - STML (Spoken Text Markup Language) и JSML (Java Speech Markup Language), независимо созданных ранее фирмами Sun Microsystem и Bell Labs. Стремясь к стандартизации в этой области, 2 марта 1999 г. АТ&Т, Lucent Technologies и Motorola основали VoiceXML-форум.
Новый стандарт обеспечит универсальный голосовой интерфейс для мира WWW. Форум изначально поставил перед собой четыре основные цели:
- разработка и открытая стандартизация;
- разъяснение компьютерной индустрии важности внедрения;
- привлечение к работе новых участников;
- широкое внедрение нового стандарта.
Уже через полгода, 25 августа 1999 г., был разработан предварительный вариант (версия 0.9) спецификации VoiceXML. На этом этапе к тройке основателей присоединились еще 44 компании, в числе которых была IBM со своим языком голосовой разметки, принесшая в форум дополнительные знания. И наконец ровно через год после создания форума, 7 марта 2000 г., была представлена первая версия языка. Окончательно новый стандарт VoiceXML 1.0 был принят 22 мая консорциумом W3C (World Wide Web Consortium).
VoiceXML 1.0 разработан специально для приложений телефонии. Он не является чьей-либо частной собственностью и поэтому может быть использован без лицензий или согласований с VoiceXML-форумом.
Ларри Рэбинер, вице-президент по исследованиям AT&T Labs, оптимистично заявил: “Когда люди смогут работать с сетевыми приложениями или IP-ориентированными сервисами через VoiceXML, обыкновенный телефон в буквальном смысле станет вездесущим устройством доступа в Интернет”.
Стандарт VoiceXML в первую очередь разрабатывался для людей, имеющих телефон, но не имеющих доступа в Интернет, либо для тех, кто физически не способен полноценно работать за обыкновенным компьютером. Он призван открыть путь к появлению новых голосовых сервисов в Интернете. Например, любой человек сможет по телефону вести интерактивный диалог с компьютером и получать необходимую ему информацию, будь то прогноз погоды, места дорожных пробок, курсы валют или состояние счета в банке - и все это станет доступным без прикосновения к компьютерной клавиатуре.
Заручившись поддержкой консорциума W3C, форум приобрел дополнительный стимул для продвижения голосовых технологий в Интернете. Они продолжат тесное сотрудничество, и следующая их встреча назначена на сентябрь этого года. На ней предполагается решить вопрос продвижения нового стандарта как универсального средства для голосового доступа в Интернет. Полную версию VoiceXML 1.0 можно скачать с официального сайта форума (www.vxmlforum.org).
Технические детали
VoiceXML описывает голосовой интерфейс между компьютером и человеком, включая синтез речи, возможность проигрывания аудиофайлов и запоминание произносимой речи, некоторые функции телефонных служб, такие, как перенаправление вызова и отсоединение абонента, а также распознавание произносимой речи и набор номера в тоновом режиме (DTMF). Важно понимать, что сам язык ничего не произносит и не распознает, он только стандартизирует голосовой сценарий поведения программы, а для его реального выполнения вызывается специальное ПО того же синтеза или распознавания речи, которое может совершенно не ведать о существовании языка разметки.
Любой язык разметки относится к высокому уровню, что упрощает процесс разработки приложений. Например, для того чтобы поместить рисунок на веб-страничку, необходимо при ее создании указать только место нахождения графического файла. Подобно этому VoiceXML можно использовать для встраивания голосовых данных, получив доступ к ним либо при непосредственном просмотре веб-страницы, либо с помощью телефона. Необходимо отметить, что VoiceXML не заменяет уже существующие языки разметки, а гармонично дополняет их новыми возможностями. По своей сути он очень похож на HTML и так же прост в освоении и использовании.
Ниже приведены два небольших примера использования VoiceXML, взятые из официального описания стандарта. В первом случае произносится банальное “Hello, world”:
<?xml version=“1.0”?>
<vxml version=“1.0”>
<form>
<block>Hello, World!</block>
</form>
</vxml>
Элемент верхнего уровня <vxml> необходим для открытия нового голосового диалога. Существует два типа голосовых диалогов - это формы и меню. Формы содержат информацию, а также воспринимают произносимую речь; меню же необходимо для выбора дальнейших действий. В приведенном примере показана простейшая форма, которая содержит только текстовый блок для синтеза речи. И так как дальше нет голосового диалога, то беседа завершается.
Во втором примере описан разговор человека с компьютером о выборе напитка и затем показана реакция компьютера на этот выбор - он отправляет пользователя к следующему голосовому диалогу:
<?xml version=“1.0”?>
<vxml version=“1.0”>
<form>
<field name=“drink”>
<prompt>Что будем пить? Чай, кофе, вино, пиво или ничего? </prompt>
<grammar src=“drink.gram”
type=“application/x-jsgf”/>
</field>
<block>
<submit next=
“http://www.drink.example/drink2.asp”/>
</block>
</form>
</vxml>
field является блоком для ввода голосовых данных. Для перехода на следующий элемент формы пользователь должен что-то произнести. По описанному выше сценарию может завязаться небольшая беседа:
К (компьютер): Что будем пить? Чай, кофе, вино, пиво или ничего?
Ч (Человек): Beer.
К: Я не понял, что вы сказали. Что будем пить?
Ч: Пиво.
К: (продолжение беседы по сценарию документа drink2.asp)
Стандарт VoiceXML действительно упрощает процесс разработки веб-ориентированных голосовых сервисов, так как при его использовании не нужно задумываться о реализации голосовых процессов и программист концентрирует внимание исключительно на произносимом тексте и вариантах отклика со стороны программы на различные высказывания пользователя.
Внедрение голосовых технологий сулит появление совершенно новых возможностей, с которыми не только Интернет будет восприниматься совершенно по-другому, но и компьютерная индустрия получит новую громадную область приложений.