Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Мобильные решения: Статьи Новости компаний Решения

Панорама

Российский ИИ — реальному сектору экономики РФ

Системы, использующие искусственный интеллект, сегодня внедряют многие российские компании. Конечно, чтобы был эффект …

Curator.CDN: гибкая сеть доставки веб-контента с защитой от сетевых атак

По мере постоянно увеличивающегося объема передаваемых по интернету данных их получатели предъявляют все более …

Чем занимается Applied Scientist в Big Tech: от математического моделирования до бизнес-влияния

Кто расставляет акценты в маркетинговой реальности. Роль Applied Scientist через опыт Дмитрия Тимошенко. По данным …

Google разработала систему офлайнового распознавания речи

Сергей Стельмах | 15.03.2016

Систему “потренировали” с использованием 3 млн. анонимных голосовых семплов, у каждого из которых было 20 искажённых шумом версий

Google создала офлайновую систему распознавания речи, которая намного быстрее аналогичной системы, работающей при подключении к Интернету. Правда, в настоящее время её возможности весьма ограничены, поскольку сложные команды всё же должны отправляться на сервер, что, в свою очередь, приводит к увеличению времени обработки.

Система была протестирована на вышедшем более двух лет назад смартфоне Nexus 5 с 4-ядерным процессором и 2 Гб оперативной памяти. Она «весит» всего 20,3 Мб, но в семь раз быстрее подключаемой к Сети. Чтобы добиться такой экономии ресурсов, сервис использует единственную модель как для диктовки, так и для голосовых команд. С целью уменьшения системного файла Google применила дополнительные технологии сжатия. Для тренировки своей акустической модели исследователи выделили из трафика голосового поиска Google 3 млн. анонимизированных произносимых слов, что эквивалентно 2 тыс. часов звучания. Для улучшения помехоустойчивости модели её «ознакомили» также с образцами шума из видеозаписей YouTube.

В ходе тестирования система продемонстрировала коэффициент погрешности 13,5%. Это хуже, чем у облачных аналогов, но, тем не менее, достаточно неплохо, утверждает Google. Для сравнения, распознавание речи в Google Now происходит с погрешностью 8%, а у Apple Siri это значение равно 5%. Обе эти технологии работают только при наличии подключения к Интернету, так как обработка команд выполняется на сервере.

По мнению авторов офлайновой системы, отсутствие необходимости в надежном сетевом соединении с ЦОДом обеспечит огромное преимущество при работе со смартфонами, умными часами и прочими ограниченными в ресурсах гаджетами, оптимизированными для голосового управления.

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Google разработала систему офлайнового распознавания речи

Систему “потренировали” с использованием 3 млн. анонимных голосовых семплов, у каждого из которых было 20 искажённых шумом версий

Комментарии