НовостиОбзорыСобытияIT@WorkРеклама
Искусственный интеллект:

Блог

Когда машина научится распознавать речь не хуже человека?

В последнее время между IBM и Microsoft развернулось своеобразное состязание: чей софт лучше распознает человеческую речь.[spoiler] Меряются процентом ошибок. Недавно Microsoft торжественно объявила, что по этому показателю с величиной 5,9% она превзошла IBM, прошлогодний рекорд которой равнялся 6,9%. Ответа долго ждать не пришлось: теперь IBM протрубила о своем превосходстве с показателем 5,5%. Казалось бы, мы еще очень далеки от идеала: из каждых 20 слов одно распознается неправильно. А какой же процент будет признан приемлемым? По словам главного научного сотрудника IBM Джорджа Саона, согласно их исследованиям, у человека процент ошибок - 5,1%, и хотя 5,5% находится к искомой цифре довольно близко, Саон считает, что "открывать шампанское еще рановато".

По-видимому, его слова следует понимать так, что каждая следующая доля процента будет стоить гораздо больших усилий. Как знать, может быть, процесс приближения будет асимптотическим и тогда сравняться с человеком машине не суждено. :(   Нынешнее достижение обусловлено применением LSTM-разновидности (Long short-term memory - Долгая краткосрочная память)  рекуррентных нейронных сетей (RNN), языковых моделей WaveNet и трех мощных акустических моделей. Честно скажу, все эти слова мне мало что говорят, за исключением того, что это уже очень глубокая и продвинутая математика. Но вот любопытно, что результаты сильно зависят от языкового корпуса, на котором проводится тестирование. В указанном тесте использовался корпус Switchboard, включающий множество формальных телефонных разговоров между незнакомыми людьми. При тестировании же на корпусе CallHome, включающем беседы между членами семьи на произвольные темы, результат IBM составил 10,1% ошибок распознавания. Правда и люди на этом корпусе ошибаются чаще, чем на Switchboard (6,8%). Со временем IBM планирует применить данную технологию в своем когнитивном сервисе Watson Speech to Text.
Колесов Андрей
То, что машина уже превзошла человека в деле распознавания фото - это точно. Хотя еще 20 лет назад это казалось невозможным :-)

Я думаю, что следующий шаг, который должны сделать машины - это распознавание смысла сказанного (или текста). Я, например, некоторые наши государственные документы просто не понимаю: каждое слово по отдельности понятно, даже фразу можно воспринять. А вот смысл написанного - не понятно!  :-)
Колесов Андрей
По этому поводу вспомнилась шутка, которую услышал еще в детстве:

"Создан Союз Любителей Соврать. Политиков в Союз не принимают - они профессионалы",
Впрочем, я еще в том же детстве понял, что это не шутка :-)
Свинарев Сергей
Я вспомнил другую хохму. Если не ошибаюсь, первоисточник - Жванецкий.
На "Поле чудес" человек угадал все буквы, но не угадал слово. :o