Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ модель распознавания речи T-one. Это потоковая ASR-модель при сравнительно небольшом размере в 70 млн параметров лидирует среди других открытых моделей по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров — именно там, где бизнес теряет деньги из-за ошибок распознавания.
Открытие доступа «Т-Технологиями» к качественной потоковой модели распознавания речи Т-one позволит ускорить развитие экосистемы речевых технологий в России.
Потоковое распознавание речи позволяет обрабатывать звонки в реальном времени, повышать скорость и качество обслуживания, а также снижать нагрузку на операторов и затраты на персонал. Модель изначально спроектирована для работы в реальном времени с аудиопотоком произвольной длины и обеспечивает низкую задержку, что критично для голосовых ассистентов, автоматизации колл-центров и аналитики звонков.
Эта модель уже успешно используется во внутренних продуктах «Т-Технологий», включая службу поддержки Т-Банка, мобильного секретаря в Т-Мобайле, инструментах защиты от спам-звонков и др.
Общепринятых валидационных датасетов для телефонии на русском в открытом доступе с должным качеством разметки не существует, но по внутренним бенчмаркам по качеству распознавания на русском в телефонии Т-one обгоняет большие открытые ASR-модели: GigaAM v2 на
Компактный размер T-one позволяет запускать эту модель без необходимости закупать дорогостоящее оборудование, что снижает инфраструктурные затраты.
T-one снижает порог входа в технологии распознавания речи, позволяя компаниям развернуть качественное решение на собственных серверах без необходимости приобретать дорогие лицензии или зависеть от облачных провайдеров.
Теперь даже небольшие команды без мощной инфраструктуры могут использовать технологии крупного бизнеса для автоматизации колл-центров и аналитики звонков.
В открытый доступ на GitHub и Hugging Face выложены не только веса модели, но и код для запуска в высоконагруженной среде и адаптации под собственные задачи. Исследователи и разработчики могут использовать модель как сильный и легковесный базис для экспериментов в области речевых технологий. Инструмент позволяет быстро интегрировать решение в продукты, а также кастомизировать под специфику бизнеса. T-one распространяется по лицензии Apache 2.0, разрешающей свободное коммерческое использование и модификацию.