Российская высшая школа приступает к обучению студентов по специальности “компьютерная лингвистика”. По мнению экспертов, представителей академической и отраслевой среды, все необходимые условия для этого созрели: отечественная наука имеет в этой сфере серьезную основу, на рынке видно определенное повышение спроса на таких профессионалов, есть интересен к подобной деятельности со стороны молодежи, выбирающей для себя жизненный путь, имеется готовность оказания спонсорской (методической, технической, финансовой) поддержки развитию этого направления в вузах со стороны ИТ-отрасли.

Именно с этих тезисов началось обсуждение данной темы на круглом столе, состоявшемся в середине мая в Российском государственном гуманитарном университете (РГГУ), на котором было объявлено о старте проекта, реализуемого под эгидой Института лингвистики РГГУ, компаний ABBYY и IBM. Было объявлено о создании двух кафедр компьютерной лингвистики, одной в самом РГГУ, второй — в Московском физико-техническом институте (МФТИ). Комментируя этот анонс директор Института лингвистики Максим Кронгауз напомнил, что лингвистика — это издавна существующая наука об устройстве и принципах функционирования естественного языка, имеющая хорошую историю развития в нашей стране. Подготовка специалистов в этой области является одним из давних профильных направлений РГГУ, проводимой под эгидой руководимого им института. Сейчас ежегодно выпускается 60—80 студентов данного профиля.

Компьютерную лингвистику можно определить как междисциплинарную область разработки методов решения различных полезных задач обработки естественного языка (любого языка!) с помощью ИТ. Данное направление также имеет свою историю, в том числе отечественную (как минимум 30—40 лет), но до сих пор целенаправленной подготовкой специалистов в этой области наша высшая школа практически не занималась. В последние же годы потребности рынка серьезно изменились и потому пора активно заниматься этим направлением, наверстывая упущенное время.

С практическим применением компьютерной лингвистики каждый день имеют дело почти все пользователи ПК — это, например, проверка правописания, грамматики и стиля в тестовых редакторах. Давно и широко присутствуют на рынке различные средства распознавания печатных и рукописных текстов. Можно также назвать распознавание (диктовка, слитная) и синтез речи, машинный перевод текста и речи, генерацию текста, поиск нужного документа по запросу в информационных ресурсах, реферирование (смысловое сжатие), анализ содержания текстов (классификация; кластеризация; установление сходства, фильтрация нежелательных документов, анализ тональности и пр.), вопросно-ответные системы и системы логического вывода и разного рода другие системы извлечения знаний.

Компьютерная лингвистика особенно активно развивается во всем мире в последнее десятилетие в связи с растущим влиянием Интернета и появлением большого числа новых технических устройств с естественно-языковыми интерфейсами. Помимо уже перечисленных направлений важным является также создание инструментов и методов для собственно лингвистических исследований (область пересечения интересов теоретической и компьютерной лингвистик).

Актуальность задачи целенаправленной подготовки специалистов по компьютерной лингвистики обозначалась уже давно, отметил Максим Кронгауз. Проблема видна хотя по тому, что в мировых научных исследованиях по данной теме недостаточно представлены как русский язык (как объект изучения), так и отечественная наука в целом. При этом парадокс заключается в том, что как раз российские компании – разработчики в этой сфере занимают заметное место в мировой табели о рангах, и более того как раз подобные направления в силу наличия в стране общего научно-образовательного ресурса могу стать основой для расширения присутствия России на мировом ИТ-рынке.

Серьезные, причем нарастающие кадровые трудности испытывает все российское направление языковых технологий: как ИТ-компании, ведущие разработки, так и заказчики, которым данные средства нужны для повышения эффективности работы. Кадровая проблема усугубляется еще и тем, что для “доводки” собственного уровня квалификации по данной теме выпускникам вузов порой приходится уезжать для дополнительного образования за рубеж, где они чаще всего и остаются. “Я рад, что мы — вузы и компании — достигли понимания в решении наших взаимных проблем и договорились о начале тесного сотрудничества в этой сфере”, — добавил представитель РГГУ.

Об актуальности данной темы с точки зрения мирового ИТ-рынка сказала заместитель генерального директора Научно-технического центра IBM Катерина Фроловичева: “Наибольшая часть ценной информации содержится в виде текстов на естественном языке. В связи с этим стратегическим приоритетом становится разработка инструментов, которые могут извлекать и анализировать информацию из огромных массивов неструктурированных данных”.

Руководить обеими новыми кафедрами в РГГУ и МФТИ будет директор по лингвистическим исследованиям компании ABBYY Владимир Селегей. Поясняя факт открытия таких структур одновременно в двух вузов, он обратил внимание на то, что компьютерная лингвистика реализуется на стыке гуманитарных и технических наук, поэтому сотрудничество двух ведущих в своих областях вузов (в том числе использование пересекающихся пулов преподавательских кадров, общие исследовательские проекты) является не просто полезным, но и необходимым. При этом подготовка специалистов на каждой кафедре будет иметь свою специфику, определяемую разной базовой подготовкой студентов, а также различиями в применяемых системах образования.

Комментируя этот момент, декан факультета инноваций и высоких технологий МФТИ Валерий Кривцов отметил, что подготовка специалистов в физтехе изначально была основана на использовании модели базовых кафедр, создаваемых в СССР ведущими НИИ страны, где получали специализированную подготовку студенты старших курсов. Эта же система широко используется в вузе и сейчас, свои базовые кафедры там имеет значительное число российских ИТ-компаний (в том числе и ABBYY, основатели которой — выпускники МФТИ начала 1990-х). Он подчеркнул, что такая форма сотрудничества института с отраслью самым позитивным образом отражается на развитии общей системы обучения, обеспечивая высокий уровень качества подготовки специалистов, а значит, и конкурентоспособности вуза.

Говоря о конкретных планах работы, Владимир Селегей сообщил, что специализация “компьютерная лингвистика” будет основана на базовой дисциплине “фундаментальная и прикладная лингвистика” и дополнена рядом специальных курсов и участием студентов в конкретных исследовательских проектах. Специальные предметы будут даваться в той или иной мере всем студентам, интересующимся этой тематикой. Конкретно же первые группы студентов по степеням (отдельно) бакалавр и магистр по новой специальности в составе 4—5 человек будут формироваться в новом учебном году, через несколько лет обе кафедры надеются выйти на уровень ежегодного выпуска примерно десяти специалистов (по каждой научной степени).