ScanSoft монополизирует рынок речевых технологий

На рынке речевых технологий произошло эпохальное событие - слияние двух крупнейших компаний: ScanSoft (www.scansoft.com) выкупает все акции SpeechWorks (www.speechworks.com). Для осуществления этой сделки будет выпущено 32,6 млн. акций на общую сумму в 132 млн. долл., причем за каждую акцию SpeechWorks акционеры получат 0,86 акции ScanSoft. В распоряжении объединенной компании будет около 300 специалистов по обработке и распознаванию речи, а также 200 патентов и 400 млн. долл. кумулятивных инвестиций для исследований и разработок. По оценкам экспертов, стоимость активов ScanSoft после слияния составит 386 млн., а ожидаемая прибыль в 2004 г. - 200 млн. долл.

Поскольку некоторые технологии и продукты обеих компаний совпадают, слияние приведет к сокращению издержек на 27 млн. долл., небольшим увольнениям и урезанию бюджета административных и маркетинговых расходов.

Объединение стало финальным аккордом двухлетней стратегии ScanSoft по увеличению своей доли на рынке речевых и языковых технологий. В 2001 г. компания приобрела обанкротившуюся Lernout & Hauspie, а в октябре прошлого - подразделение Philips Speech Processing. После сделки рынок речевых технологий фактически делят между собой ScanSoft, IBM и Microsoft, что является показателем его зрелости.

Новое в Intel: ПО распознавания речи по губам

На проходившей в Берлине конференции IDF EMEA корпорация Intel представила ПО с открытыми текстами AVSR (Audio Visual Speech Recognition, www.intel.com/research/mrl/research/avcsr.htm), предназначенное для распознавания речи по движениям губ.

Не секрет, что точность алгоритмов распознавания речи значительно снижается, когда приложения на их основе оказываются в условиях естественных шумов, характерных, например, для общественных мест. AVSR, объединенная с алгоритмами распознавания мимики лица из библиотеки компьютерного зрения Intel OpenCV (Open source Computer Vision library, www.intel.com/research/mrl/research/opencv/), позволит компьютерам “наблюдать” за лицом человека и отслеживать движения его губ. Синхронизация же полученных этим путем результатов с данными речевой идентификации в итоге обеспечивает повышение точности распознавания речи.

Синтез и распознавание речи для Microsoft .NET Framework 1.1

Компания Chant (www.chant.net) выпустила четвертую версию комплекта разработчика SpeechKit, позволяющего создавать речевые приложения для платформы Microsoft .NET Framework 1.1. Например, с его помощью можно строить веб-формы с голосовым заполнением или озвучивать веб-страницы. SpeechKit поддерживает индустриальные программные интерфейсы SAPI (Microsoft’s Speech API), SMAPI (IBM Speech Manager API) и COM-объекты Dragon, позволяя тем самым использовать речевые “движки” компаний Microsoft, IBM и ScanSoft соответственно. Кроме того, в комплект входят собственные реализации систем распознавания и синтеза речи.

Компоненты SpeechKit могут быть интегрированы в приложения, написанные на ActionScript (Macromedia Flash), Си/C++, Microsoft Visual C#, Delphi, Microsoft Visual FoxPro, JavaScript, VBScript, Java, Lingo (Macromedia Director), PowerBuilder и Microsoft Visual Basic. Поддерживаются операционные системы Windows 98/XP/NT/2000.

Версия для печати