Технологии синтеза и распознавания речи уже стали ключевым аспектом множества современных решений на основе нейросетей — от голосовых помощников до инструментов ИИ-аналитики коммуникаций. Выбор между этими технологиями не всегда очевиден — идеальное решение для каждого свое и зависит от задач самого заказчика. Как определиться с выбором и понять, на что прежде всего стоит обратить внимание?

Зачем бизнесу нужны сервисы синтеза и распознавания речи

Разговорный ИИ считается одним из самых быстрорастущих сегментов рынка искусственного интеллекта. По оценкам компании Just AI, в России объем этого рынка достигнет к 2025 году 561 млн. долл., то есть его рост составит около 600% за четыре года.

Как выбрать лучший сервис

При выборе системы распознавания и синтеза речи необходимо опираться на шесть ключевых метрик, о которых мы поговорим дальше, однако все не так просто. Анализ только одной ничего не даст — изучать их нужно комплексно. Таблицы идеальных значений также не существует — оптимальные метрики зависят от задач конкретно вашего бизнеса, они варьируются в зависимости от имеющихся ресурсов и объемов задач.

Важно понимать, что метрики, которые предоставляют сервисы в маркетинговых материалах, зачастую субъективны и сильно зависят от качества датасета, на которых проводились измерения. Поэтому для получения более-менее объективной картины стоит провести расчеты специально для вас: это займет больше времени, зато снизит шансы ошибиться с выбором системы.

Метрики качества синтеза речи

1. Mean opinion score (MOS)

Ключевой метрикой для определения качества технологии считается усредненная экспертная оценка синтеза. Она формируется из мнений большой группы респондентов: они прослушивают несколько аудиозаписей, синтезированных нейросетями от разных вендоров, а затем оценивают каждую из них по большому перечню критериев. Среди них — общее впечатление, правильность произношения слов, корректность интонаций и ударений и многое другое.

По каждому критерию респонденты выставляют оценку от 1 до 5, чем выше — тем ближе запись к человеческой речи. Среднее значение по всем показателям и есть MOS. Добиться идеальных показателей почти невозможно, да и не нужно — даже живая человеческая речь редко оценивается выше 4,5 баллов.

Чтобы проследить за развитием своего продукта в динамике, вендоры оценивают MOS своего продукта несколько раз в год. При этом у каждого вендора вопросы для оценки MOS хоть и схожи, но все же отличаются в зависимости от задач, которые решает та или иная платформа. Например, нейросети для озвучивания книг важнее всего разборчивость речи, и ей уделяется особое внимание при опросе респондентов.

2. Side-by-side (SbS)

Эта метрика рассчитывается примерно так же, как MOS, однако она изначально направлена на сравнение нескольких конкурирующих нейросетей. При оценке респонденты слушают несколько фрагментов одного и тоже же текста, озвученных разными нейросетями, и оценивают их по шкале от −2 до +2 — насколько одно решение превосходит другое по тому или иному параметру. Результатом исследования становится метрика SbS — усредненное значение нейросети от компании, которая проводит анализ.

В основном SbS используется вендорами для внутреннего анализа конкурентного рынка. Тем не менее вы можете запросить у компании эту метрику, чтобы узнать, как она оценивает себя относительно других решений на рынке.

3. Скорость синтеза речи (SpS)

Это технический показатель, который особенно важно учитывать компаниям с небольшими инфраструктурными ресурсами. SPS показывает, какой объем речи будет синтезироваться ежесекундно и какое количество параллельных потоков для этого нужно. Высокие показатели необходимы для синтеза большого объема речи в сжатые сроки (например, для озвучивания книг) или при использовании нейросети в онлайн-режиме (например, для голосовых помощников в крупном банке). В остальных случаях высокий SpS значительно не скажется на бизнес-метриках, но будет стоить значительно дороже и сильно расходовать инфраструктурные ресурсы компании.

При сравнении SpS необходимо учитывать, совместимы ли эти мощные нейросети с вашим «железом». Для сравнения, на одной видеокарте NVIDIA TeslaV100 с 16 ядрами CPU и 64 Гб RAM система способна синтезировать 300 SpS при 30 одновременных подключениях в потоковом режиме.

Метрики сервисов распознавания речи

1. Word error rate (WER)

Для расчета доли некорректно распознанных слов в аудиозаписи эксперты сопоставляют текст исходного материала с версией расшифровки от нейросетей. Чем меньше ошибок, тем ниже WER, и тем выше качество анализируемого сервиса. Нормы для этого показателя зависят от условий записи датасета, на котором проводились замеры. Близким к идеалу считается показатель WER около 5%, но в условиях сильной зашумленности и при плохом качестве исходной записи он может достигать и 10%.

Кроме того, показатели WER сильно зависят от лексики в тестовом датасете. Нейросеть может хорошо «понимать» темы, о которой идет речь в примере для расчета метрик, но показывать плохие результаты в узких профессиональных темах или в разговорной речи. Узнать эти детали можно, только попросив замерить WER на вашем датасете.

Сервис с самым низким WER может стоить выше своих конкурентов, но они не обязательно будут лучшими по качеству распознавания речи. Считается, что для корректной работы голосовых ботов при хорошо обученных алгоритмах нейросетей WER может быть чуть ниже 25%. Качественной ML-модели не нужно точно распознавать все слова, чтобы «понять», что от нее требуется.

2. Lemma error rate (LER)

Доля некорректно распознанных лемм (начальных форм слова) рассчитывается так же, как и WER, однако неправильные окончания слова не будут считаться ошибкой. Как правило, окончание значительно не меняет смысл предложения в целом, и для работы нейросетей такие ошибки не критичны. В результате средний показатель LER, как правило, на 2% ниже WER.

Метрика LER наиболее актуальна для русского и других синтетических языков, в которых слова строятся с помощью окончаний, суффиксов. LER можно использовать для сравнения с оценкой WER на англоязычных датасетах, поскольку в них практически нет окончаний.

Метрика LER применима для компаний, в которых нет потребности в абсолютной точности распознаваемого слова. Ее можно использовать при подборе решения для анализа голосовой обратной связи от клиентов. Но, например, в медицинских организациях важна высокая точность полного распознавания слов. Если врач использует нейросети для расшифровки показаний пациентов и записи своих указаний, ему критически важна точность записанных в систему данных.

3. Semantic Distance

Для расчета этого показателя используется нейросеть, которая оценивает смысловую близость различных аспектов распознанного текста к его оригиналу. Это позволяет определить критичность тех или иных ошибок, которые допускает сервис распознавания речи.

Если вместо фразы «я очень хочу игрушку» нейросеть услышала «я осень хочу игрушку», это не повлияет на смысл предложения в целом. Но если система распознала фразу как «я не хочу игрушку», это полностью меняет значение высказывания. На практике такая ошибка в работе голосового помощника может запустить некорректный скрипт разговора.

ML-специалисты только работают над тем, чтобы выработать единые принципы расчета показателя Semantic Distance. Из-за этого разработчики нейросетей пока считают его по собственным формулам, и сравнение этих метрик у разных компаний может быть необъективным. Тем не менее уже сейчас этот показатель может дать примерное представление о том, насколько такой уровень смысловых ошибок допустим при решении ваших задач.

Иван Дулов, менеджер по продукту Audiogram MTS AI