Google создала офлайновую систему распознавания речи, которая намного быстрее аналогичной системы, работающей при подключении к Интернету. Правда, в настоящее время её возможности весьма ограничены, поскольку сложные команды всё же должны отправляться на сервер, что, в свою очередь, приводит к увеличению времени обработки.

Система была протестирована на вышедшем более двух лет назад смартфоне Nexus 5 с 4-ядерным процессором и 2 Гб оперативной памяти. Она «весит» всего 20,3 Мб, но в семь раз быстрее подключаемой к Сети. Чтобы добиться такой экономии ресурсов, сервис использует единственную модель как для диктовки, так и для голосовых команд. С целью уменьшения системного файла Google применила дополнительные технологии сжатия. Для тренировки своей акустической модели исследователи выделили из трафика голосового поиска Google 3 млн. анонимизированных произносимых слов, что эквивалентно 2 тыс. часов звучания. Для улучшения помехоустойчивости модели её «ознакомили» также с образцами шума из видеозаписей YouTube.

В ходе тестирования система продемонстрировала коэффициент погрешности 13,5%. Это хуже, чем у облачных аналогов, но, тем не менее, достаточно неплохо, утверждает Google. Для сравнения, распознавание речи в Google Now происходит с погрешностью 8%, а у Apple Siri это значение равно 5%. Обе эти технологии работают только при наличии подключения к Интернету, так как обработка команд выполняется на сервере.

По мнению авторов офлайновой системы, отсутствие необходимости в надежном сетевом соединении с ЦОДом обеспечит огромное преимущество при работе со смартфонами, умными часами и прочими ограниченными в ресурсах гаджетами, оптимизированными для голосового управления.

Версия для печати (без изображений)