Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Блог

Когда машина научится распознавать речь не хуже человека?

Свинарев Сергей

14.03.201712:3014.03.2017 12:30:49

В последнее время между IBM и Microsoft развернулось своеобразное состязание: чей софт лучше распознает человеческую речь.[spoiler] Меряются процентом ошибок. Недавно Microsoft торжественно объявила, что по этому показателю с величиной 5,9% она превзошла IBM, прошлогодний рекорд которой равнялся 6,9%. Ответа долго ждать не пришлось: теперь IBM протрубила о своем превосходстве с показателем 5,5%. Казалось бы, мы еще очень далеки от идеала: из каждых 20 слов одно распознается неправильно. А какой же процент будет признан приемлемым? По словам главного научного сотрудника IBM Джорджа Саона, согласно их исследованиям, у человека процент ошибок - 5,1%, и хотя 5,5% находится к искомой цифре довольно близко, Саон считает, что "открывать шампанское еще рановато".

По-видимому, его слова следует понимать так, что каждая следующая доля процента будет стоить гораздо больших усилий. Как знать, может быть, процесс приближения будет асимптотическим и тогда сравняться с человеком машине не суждено.

Нынешнее достижение обусловлено применением LSTM-разновидности (Long short-term memory - Долгая краткосрочная память) рекуррентных нейронных сетей (RNN), языковых моделей WaveNet и трех мощных акустических моделей. Честно скажу, все эти слова мне мало что говорят, за исключением того, что это уже очень глубокая и продвинутая математика. Но вот любопытно, что результаты сильно зависят от языкового корпуса, на котором проводится тестирование. В указанном тесте использовался корпус Switchboard, включающий множество формальных телефонных разговоров между незнакомыми людьми. При тестировании же на корпусе CallHome, включающем беседы между членами семьи на произвольные темы, результат IBM составил 10,1% ошибок распознавания. Правда и люди на этом корпусе ошибаются чаще, чем на Switchboard (6,8%). Со временем IBM планирует применить данную технологию в своем когнитивном сервисе Watson Speech to Text.

Свинарев Сергей

14.03.201712:3014.03.2017 12:30:49

Просмотров:12738 Комментариев:3

Теги: AI, Artificial Intelligence, распознавание речи, speech to text recognition, уровень ошибок, word error rate, IBM, Microsoft, Watson

Колесов Андрей

Колесов Андрей 14 марта 2017 16:12

То, что машина уже превзошла человека в деле распознавания фото - это точно. Хотя еще 20 лет назад это казалось невозможным

Я думаю, что следующий шаг, который должны сделать машины - это распознавание смысла сказанного (или текста). Я, например, некоторые наши государственные документы просто не понимаю: каждое слово по отдельности понятно, даже фразу можно воспринять. А вот смысл написанного - не понятно!

Ещё

Колесов Андрей

Колесов Андрей 14 марта 2017 16:14

По этому поводу вспомнилась шутка, которую услышал еще в детстве:

"Создан Союз Любителей Соврать. Политиков в Союз не принимают - они профессионалы",
Впрочем, я еще в том же детстве понял, что это не шутка

Ещё

Свинарев Сергей

Свинарев Сергей 14 марта 2017 16:35

Я вспомнил другую хохму. Если не ошибаюсь, первоисточник - Жванецкий.
На "Поле чудес" человек угадал все буквы, но не угадал слово.

Ещё