РЕЧЕВЫЕ ТЕХНОЛОГИИ
SALT Forum подготовил первую версию спецификации SALT
Спецификация SALT
Организация SALT Forum (www.saltforum.org) опубликовала первую версию спецификации SALT (Speech Application Language Tags) - языка тегов речевых приложений, призванного стандартизировать использование голосовых технологий в многомодальных и телефонных системах.
Именно интерес к многомодальным приложениям, сочетающим в себе распознавание и синтез речи с другими формами ввода и вывода информации (с помощью клавиатуры, компьютерной мыши, сенсорных экранов, мониторов), побудил ряд компаний запустить проект SALT Forum. Это произошло 15 октября 2001 г., а спустя полгода, 12 марта, были выпущены предварительная версия спецификации SALT и инструментарий Microsoft .NET Speech SDK (www.microsoft.com/speech/). К тому времени к шести компаниям-учредителям - Microsoft, Cisco Systems, Intel, Philips, Comverse и SpeechWorks - присоединилось еще 37 участников. На момент выхода 15 июля первой версии спецификации в составе организации было уже более 50 фирм.
SALT не является новым языком, а служит для расширения таких языков, как HTML, XHTML и XML за счет введения дополнительных тегов и добавления в них поддержки голосовых сервисов. С внедрением SALT пользователь вместе с традиционным графическим интерфейсом получает речевой способ взаимодействия с веб-порталами. Используя обычный компьютер, КПК, сотовый или проводной телефон, он может голосом запрашивать необходимую информацию, которая будет представлена ему в виде синтезированной речи.
С точки же зрения программиста, для работы с SALT совсем необязательно разбираться в тонкостях распознавания или синтеза речи. Язык построен на основе модели событий, что позволяет запрограммировать различного уровня сложности диалоги с пользователем. Вставлять теги SALT в уже существующие или только создаваемые HTML-, XHTML- и XML-страницы можно с помощью привычных редакторов и утилит.
Первая версия спецификации SALT затрагивает три возможности многомодальных систем: телефонный доступ, синтез и распознавание речи. К примеру, тег “prompt” обеспечивает проигрывание ранее записанной или синтезированной речи, теги “listen” и “bind” используются для распознавания голоса. Что же касается поддержки доступа к веб-порталам по телефону, то в SALT предусмотрены возможности по подсоединению, передаче данных, отсоединению, а также проведению конференций для телефонных абонентов.
Реакция рынка
Параллельно с анонсом первой версии спецификации SALT было представлено несколько продуктов на ее основе: Philips выпустила SALT-браузер, написанный на языке программирования Java и поддерживающий только речевые теги спецификации SALT и первый прототип телефонной SALT-системы; HeyAnita разработала SALT-браузер FreeSpeech; университет Карнеги - Меллона также создал SALT-браузер в рамках открытого проекта OpenSALT.
“SALT Forum доказал, что он способен в самые сжатые сроки выработать спецификацию для поддержки речевых технологий в веб-порталах и обычных приложениях, - сказал представитель SALT Forum Роб Кассел. - Теперь, когда первая версия SALT завершена, разработчики могут создавать информационные системы, доступные любому мобильному пользователю из любой точки мира и в любое время”.
Все бы хорошо, но на рынке речевых технологий благодаря активности SALT Forum возник раскол. Уже три года существует диалоговый язык разметки VoiceXML, который применяется для интеграции речевых технологий в разнообразные телефонные информационные системы, и в самое ближайшее время ожидается выход его второй версии.
Инициативы W3C
Тем временем консорциум W3C, точнее, его рабочая группа W3C Voice Browser (www.w3.org/Voice/), созданная в 1998 г., занимается подготовкой документов, объединенных в набор W3C Speech Interface Framework и унифицирующих использование речевых технологий в Web. Их задачей является расширение методов доступа и навигации в Web путем использования клавиатуры сотовых и проводных телефонов, распознавания и синтеза естественной речи человека и пр. Для этого предлагается целый ряд спецификаций: диалогового языка разметки VoiceXML 2.0, синтеза речи (Speech Synthesis), распознавания речи (Speech Recognition), грамматики DTMF (DTMF Grammars), речевой грамматики (Speech Grammars), вероятностной модели языков (Stochastic Language Models) и др. Среди них самое динамичное развитие получили язык VoiceXML 2.0 и первая версия спецификации грамматики по распознаванию речи (Speech Recognition Grammar Specification 1.0), которые находятся на этапе окончательной стандартизации.
Что же касается многомодальных систем, то и эта тема не обойдена W3C стороной. В феврале этого года была организована рабочая группа Multimodal Interaction Activity (www.w3.org/2002/mmi/). Ее задача - создание спецификаций, предоставляющих возможность многомодального доступа и навигации в Web, с одинаковым успехом сочетающего использование как традиционных устройств ввода-вывода (клавиатура, монитор), так и естественной речи человека, “рисующего пера” - стилусов и других нетрадиционных способов. Новые формы ввода-вывода приобретают всю большую популярность в связи с быстрым ростом пользователей сотовых телефонов, карманных компьютеров, автомобильных навигационных систем и телевизионных приставок, в которых невозможно использование полноценных клавиатур и цветных экранов с высоким разрешением.
Таким образом, получается, что решаемые новой рабочей группой W3C задачи практически полностью совпадают с целями SALT Forum. Сразу встает вопрос: не имеем ли мы еще один раскол, но теперь уже в сфере многомодальных систем, ведь, с одной стороны, есть спецификация SALT и 50 компаний ее поддерживающих, а с другой - международная организация по стандартизации Web W3C?
Еще один раскол?
Видимо, никакого раскола нет и проблема лежит в несколько другой плоскости. Разворачивающиеся события вокруг SALT Forum очень напоминают историю появления диалогового языка VoiceXML, первая версия которого была создана в рамках организации VoiceXML Forum (www.voicexml.org), а потом он был передан для дальнейшего развития и стандартизации в W3C. Правдоподобность этой версии подтверждается тем, что в списке компаний - участниц новой рабочей группы по многомодальным системам числится более половины организаторов SALT Forum: Microsoft, Intel, Comverse, SpeechWorks. Помимо них туда также входят IBM и Motorola, которые как раз выступают в лагере VoiceXML.
Ни для кого не секрет, что создание спецификаций W3C занимает достаточно продолжительное время, поэтому вряд ли стоит ожидать в ближайшее время появления международного стандарта по многомодальным системам. Тем временем рынок во главе с Microsoft сделал свой выбор и выпустил спецификацию SALT, и, наверное, в ближайший год или даже два именно она будет играть доминирующую роль в этой сфере.