«Яндекс» разработал ультрамалую нейросетевую модель для голосового управления в носимых ИИ-устройствах. Размер модели удалось сократить без потери качества примерно до 200 Кб — это меньше объёма одной фотографии на смартфоне. Информацией об этом поделился Дмитрий Солодуха, руководитель направления голосовой активации в «Яндексе».
Подход к голосовому управлению в носимых устройствах отличается от подхода, используемого в умных колонках или смартфонах. Компактные гаджеты сильнее ограничены по ёмкости аккумулятора, объёму памяти и вычислительной мощности процессора. При этом система голосовой активации должна постоянно анализировать аудиопоток и обрабатывать его локально в ожидании ключевой команды, не создавая заметной нагрузки на устройство и не сокращая время его автономной работы. Для решения этой задачи команда Яндекса создала систему обработки голоса на нескольких уровнях — от аппаратной части до самой нейросетевой модели.
Инженеры применили двухэтапную систему обработки аудиосигнала. Сначала лёгкая модель определяет наличие речи в потоке звука и практически не нагружает устройство. Основная модель запускается только после этого и проверяет, была ли произнесена ключевая голосовая команда. Такой подход позволяет снизить постоянную вычислительную нагрузку и расход энергии.
Отдельной задачей стала оптимизация самой нейросетевой модели, поскольку именно непрерывная работа системы голосовой активации, которая ждет команду, создаёт основную нагрузку на аккумулятор устройства. Команда сократила число параметров модели примерно в 10 раз за счёт более компактной архитектуры нейросети, которая требует меньше вычислений без существенной потери качества распознавания. Это позволяет выполнять распознавание голосовой команды локально — без постоянной передачи аудиосигнала в облако. За счёт этого снижается энергопотребление устройства и уменьшается задержка при обработке команд.
Одним из решений проблемы стало использование чипов с NPU — специализированным нейропроцессором для ускорения вычислений нейросетей с меньшим энергопотреблением по сравнению с CPU.
По словам Дмитрия Солодухи, такой подход может использоваться в разных устройствах с обработкой речи в реальном времени — например, в наушниках, умных часах и других компактных носимых устройствах с ИИ-функциями.






























