3iTech, российский вендор решений на базе искусственного интеллекта для бизнеса, выпустил облачную платформу для создания любых продуктов и бизнес-решений на основе речевых технологий — 3i VoxKit 2.0.

Новая платформа позволяет решать такие бизнес-задачи, в которых требуется распознавать, понимать и идентифицировать речь. Например, озвучивание видеороликов, аудиокниг, инструкций, интерфейсов сайта, создание голосовых роботов и ассистентов, способных общаться на естественном языке, протоколирование совещаний и онлайн конференций, идентификация клиентов по голосу для защиты бизнеса от фрода, создание субтитров для ТВ-передач, подкастов, эфиров и видеофильмов.

3i VoxKit 2.0 также поможет в создании решений для автоматизации анализа клиентских коммуникаций и контроля качества обслуживания.

Платформа работает с речью в потоковом и отложенном режимах, умеет распознавать пол, возраст и эмоции говорящего. При этом, сегодня она позволяет синтезировать речь на русском и казахском языках одним из четырех голосов дикторов, а в ближайшее время добавится узбекский. Распознавание речи доступно на русском, казахском, узбекском и английском языках.

«В наших планах до конца 2024 года расширить число высокопрофессиональных голосов дикторов, которые могли бы использоваться в контакт-центрах наших клиентов, до десяти. Также, 3iTech начинает оказывать услугу создания синтезированного голоса на заказ на турецком, азербаджанском, китайском, арабском и других языках», — сказал генеральный директор 3iTech Алексей Любимов.

Первая версия 3i VoxKit была выпущена компанией 3iTech в 2020 году, и активно использовалась бизнесом, в том числе на телевидении. На полный перезапуск системы и выпуска ее второй версии ушло 2 года исследований и разработок.

Протестировать работу платформы можно в свободном доступе и без авторизации.