По-видимому, его слова следует понимать так, что каждая следующая доля процента будет стоить гораздо больших усилий. Как знать, может быть, процесс приближения будет асимптотическим и тогда сравняться с человеком машине не суждено. Нынешнее достижение обусловлено применением LSTM-разновидности (Long short-term memory - Долгая краткосрочная память) рекуррентных нейронных сетей (RNN), языковых моделей WaveNet и трех мощных акустических моделей. Честно скажу, все эти слова мне мало что говорят, за исключением того, что это уже очень глубокая и продвинутая математика. Но вот любопытно, что результаты сильно зависят от языкового корпуса, на котором проводится тестирование. В указанном тесте использовался корпус Switchboard, включающий множество формальных телефонных разговоров между незнакомыми людьми. При тестировании же на корпусе CallHome, включающем беседы между членами семьи на произвольные темы, результат IBM составил 10,1% ошибок распознавания. Правда и люди на этом корпусе ошибаются чаще, чем на Switchboard (6,8%). Со временем IBM планирует применить данную технологию в своем когнитивном сервисе Watson Speech to Text.
Я думаю, что следующий шаг, который должны сделать машины - это распознавание смысла сказанного (или текста). Я, например, некоторые наши государственные документы просто не понимаю: каждое слово по отдельности понятно, даже фразу можно воспринять. А вот смысл написанного - не понятно!
"Создан Союз Любителей Соврать. Политиков в Союз не принимают - они профессионалы",
Впрочем, я еще в том же детстве понял, что это не шутка
На "Поле чудес" человек угадал все буквы, но не угадал слово.