Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
ПК и периферия: Статьи Новости компаний Решения

Панорама

Цифровой иммунитет серверной: как малая автоматизация предотвращает большие простои

Невидимые инциденты в необслуживаемых узлах В распределённых компаниях серверные шкафы часто располагаются …

Мариус Малышев: «Без понимания инфраструктуры код просто не дойдет до пользователя»

Инженер, прошедший путь от строительства дата-центров до финтех-разработки, — о том, почему в эпоху Edge …

Игорь Буторин: «Собственная архитектура — это форма технологической независимости IT-сектора в России»

Разработчик архитектурного коммуникационного ядра, которое применялось при разработке продуктов для разных сегментов рынка …

Как строится надёжность цифровых систем: инженер Костадин Алмишев и его стратегия создания предсказуемых сервисов

В современной финансовой индустрии существует интересный парадокс: чем сложнее становятся технологии внутри банка или …

UEM: от «инвентаризации телефонов» к интеллектуальному управлению мобильным миром

Ещё 5–7 лет назад UEM/MDM воспринимался в корпоративной ИТ-службе примерно как учёт парты в школьном классе: «есть/нет …

Говори компьютеру, что делать

(101)27`1997

Питер Коффи | 15.07.1997

Становится ли бесклавиатурное взаимодействие с компьютером повсеместным или, как и десять лет назад, до этого еще остается лет десять?

Бурное развитие информационных технологий привело к повышению производительности и снижению цен на аппаратное обеспечение. При этом, правда, все еще существуют области, состояние дел в которых описывается в весьма старых книгах.

Компьютеры способны реагировать на отдельные речевые команды, особенно если они состоят из специально подобранного набора слов, облегчающего распознавание.

В некоторых ситуациях при соответствующих ограничениях возможно автоматизированное распознавание отдельных слов во фразах. Так, в 1992 г. корпорация AT&T выпустила систему, которая могла выделять ключевые слова из общего контекста, например слово “коллективный” из фразы “я хочу сделать коллективный звонок”.

Системы для типичного пользователя, то есть не требующие предварительного обучения, способны работать со словарным запасом в несколько сотен слов. Однако ввиду отсутствия семантической обработки речи они легко ошибаются.

В настольных системах распознавание команд может быть неплохим дополнением к графическому интерфейсу при выполнении стандартных операций типа “сохранить”, “закрыть”, “выйти”. Тем не менее, представляя себе бесклавиатурный компьютер, мы видим все-таки нечто большее.

Словарь серьезной системы распознавания речи должен содержать не сотни, а тысячи и десятки тысяч слов и фраз. В отличие от распознавания команд такая система должна иметь дело с грамматическими вариациями слова - число, падеж, форма и время глагола.

Корпорация IBM демонстрирует логические способности своей системы VoiceType следующим тестом: “They are going to park their car over there” (“Они собираются припарковать свою машину в этом месте”). Когда эти слова произносятся, VoiceType в динамическом режиме обновляет семантическую модель предложения. Например, последнее слово “there” (“в этом месте”) может быть воспринято как “their” (“свой”, оба слова произносятся одинаково) с таким окончанием предложения: “припарковать машину в своем гараже”. Однако когда диктор произносит “period” (точка), VoiceType возвращается назад и заменяет слова, получая верный грамматический результат.

Вообще качество имеющихся систем распознавания речи определяется по двум параметрам - времени настройки системы для конкретного пользователя и степени распознавания непрерывной речи (или требуемой продолжительности пауз между словами).

Существующие сейчас системы более надежны при работе с отдельными словами (дискретная речь), чем с естественно произносимыми фразами и предложениями (непрерывная речь). Однако ни одна из них не обладает теми речевыми возможностями, о которых было написано столько фантастических романов.

Питер Коффи (PC Week Labs)

Модели распознавания речи

Команды

Распознается от нескольких десятков до нескольких сотен слов; реализация команд по сравнению с речью, для которой требуется распознавание тысяч слов, что повышает вероятность отказа.

Дискретная речь

Распознается речь с паузами между словами; гораздо проще для реализации, чем непрерывная речь.

Непрерывная речь

Распознавание естественной речи; необходимы мощный компьютер и значительное время настройки для получения приемлемой точности.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Говори компьютеру, что делать

Комментарии