Мы разговариваем на том или ином языке, не задумываясь. Для нас это что-то естественное. Но как с этим справляется компьютер, процессор которого не живой организм, а подложка из неорганических соединений: кремния и его оксида? Самое главное, зачем это вашему бизнесу? Давайте разберемся, как человек нашел общий язык с машиной.

NLP расшифровывается как Natural Language Processing (обработка естественного языка) — общее направление технологий искусственного интеллекта и компьютерной лингвистики. NLP изучает проблемы компьютерного анализа и синтеза текстов на естественных языках для реализации более удобной формы человеко-компьютерного взаимодействия (human-computer interaction, HCI).

Язык — уникальное свойство высокоуровневых систем, которое фактически является «протоколом» для коммуникации между людьми. Мысли преобразуются в текст с помощью данного протокола, который передается с помощью речи или символов таким образом, чтобы смысл был понятен другому человеку.

Алгоритмы анализа естественной речи

Работу искусственного интеллекта по анализу естественной речи можно сравнить с написанием диктанта по русскому языку. Устную речь мы переводим в письменную благодаря технологии преобразования речи в текст (speech-to-text), затем проверяем орфографию и пунктуацию (spell-checking), также используем автокоррекцию текста (autocorrect), выделяем основы и корни, подчеркиваем главные члены предложения, определяем основную мысль и цель текста.

Если структурировать алгоритм NLP, получится следующая последовательность:

  1. сначала нужно перевести информацию в формат, удобный для работы алгоритмов NLP (символы, слова). Если сообщение пришло в виде звукового файла, производится распознавание речи (приём и обработка звуковой волны), если в виде изображения — оптическое распознавание символов (Optical Character Recognition);
  2. затем, при необходимости, производится корректировка опечаток в тексте (spell checking) и морфологический анализ полученной строки: лемматизация (процесс приведения слова к нормальной форме, например, в единственное число именительный падеж для существительного) или стемминг (получение основы слова);
  3. далее идет семантический анализ текста. С помощью различных алгоритмов машинного обучения (Transformers, RNN, CNN и др.) получается некое представление текста (обычно в виде вектора), с помощью которого можно определить смысл текста;
  4. в случае с чат-ботами мы должны уметь не только определять смысл фразы с помощью машинного обучения, но и сохранять контекст диалога на протяжении всей беседы. Необходимость учитывать контекст диалога делает чат-боты одной из наиболее высокоуровневых задач в NLP, где используется большой набор алгоритмов (классификация, анализ тональности текста, алгоритмы предсказания следующего шага диалога), а также инструменты хранения информации (хранение в оперативной памяти, реляционные и нереляционные СУБД).

Понимание контекста машинным интеллектом

Основную информацию мы понимаем из контекста. Сами слова многозначны и порой отражают более одного смысла. Например, когда мы слышим фразу: «продается коляска для ребенка синего цвета», мы понимаем, что именно коляска синего цвета, а никак не ребенок. Точно так и должны работать обученные нейронные сети при помощи алгоритмов NLP.

Слово для программы — это строка символов, она не несет для компьютера семантического смысла, и ничем не отличается от, например, рандомного набора символов, как «u j wukw». Соответственно привить понимание смысла слов цифровому ассистенту или чат-боту вашего бизнеса (информационной системе) можно только благодаря контексту, в котором слова встречаются чаще всего.

Цифровой ассистент обучается на большом количестве уникальных предоставленных вами данных. Вместе с тем компания разработчиков работает в плотной связке с заказчиком, прорабатывая конкретные сценарии пользователя, ветви которого могут быть сколь угодно длинными и сложными.

Зачем NLP вашему бизнесу?

Что касается бизнес-истории, на данный момент самым популярным воплощением технологии NLP являются виртуальные помощники, интеллектуальные цифровые ассистенты — внутрикорпоративные или клиентоориентированные.

Внутрикорпоративные цифровые ассистенты позволяют совершить переход бизнеса от модели «shareholder value» к модели «shared value», где под термином «share» подразумевается участие каждого из сотрудников в жизни корпорации посредством взаимодействия с персонализированным цифровым ассистентом. Сотрудники компании за доли секунд могут оформить документацию, узнать сколько отпускных дней осталось, подать заявку на командировку и много другое.

Клиентоориентированные ассистенты фактически заменяют собой колл-центры: они взаимодействуют с заказчиками и потенциальными потребителями товаров и услуг, помогают регистрировать жалобы, обрабатывать обращения, отвечать на вопросы, предоставляют быстрый доступ к запрашиваемой информации. Такие ассистенты как правило встраиваются в мессенджеры Whatsapp, Telegram или на корпоративные сайты, позволяют компании ежедневно собирать обратную связь от лиц, взаимодействующих с ней, упрощают коммуникацию, максимизируют конверсию, экономят время контрагентов.

Если рассматривать корпорации, занимающиеся продажами товаров и услуг, то здесь самым весомым критерием внедрения технологий NLP, то есть виртуальных помощников, является непрерывный сбор данных о своей аудитории. Человек взаимодействует с цифровым ассистентом, который передает данные в CRM-системы компании.

Рассматривая государственные структуры, например архивные организации различных уровней, безусловно в качестве преимущества стоит выделить скорость выдачи информации по запросу пользователя в свободной форме на естественном языке. Если ранее работникам архива приходилось совершать поиск информации в течении длительного времени самостоятельно, то сейчас обученные алгоритмы цифровых ассистентов на базе NLP моментально совершают поиск по большим наборам данных, предоставляя запрашиваемую информацию, скажем 17 века, за несколько секунд.

Ваш бизнес преуспел от внедрения NLP, если...

Главным критерием успеха внедренной платформы цифровых ассистентов является удобство и легкое интуитивное использование. Также цифровой ассистент должен выдерживать серьезную нагрузку, например, по количеству и сложности обрабатываемых запросов. В каждом конкретном случае внедрения, количество критериев успешности и предъявляемый уровень технологического совершенства сильно различаются.

Оптимальные сроки полного внедрения подобных систем до 12 месяцев. Если решение является платформенным, оно будет содержать функцию расширения сценариев и освоения новых, более увлекательных для клиентов каналов «машинного обслуживания». Однако оно будет стоить того, виртуальный помощник будет максимально интеллектуальным, точным, поддерживающим сценарии произвольной длины.

Третьим важнейшим критерием успеха внедрения стоит выделить то, насколько клиент (например, пациент медицинского учреждения) или сотрудник компании «не замечают» присутствия цифрового ассистента со стороны компании, т. е. когда уровень естественности ассистирования подобного виртуального помощника является очень высоким.

Безусловно у цифрового ассистента должна быть высокая персонализация, в идеале для каждого работника должен быть настроен свой персональный цифровой профиль, максимально комфортный конкретно для него.

Таким образом, мы прикоснулись к базовым составляющим технологии обработки естественного языка, а также ее применению в бизнесе. Понимание сути технологии NLP, обязанностей, которые на себя берут цифровые ассистенты, а также базовых критериев успеха внедрения виртуальных помощников в ваш бизнес, дает дополнительные гарантии своевременной оптимизации корпорации или компании, и вместе с тем ее трансформации.

Лоран Акопян, к.ф-м.н., генеральный директор iPavlov, исполнительный директор НИЦ АО “Швабе” в МФТИ, директор по разработке прикладного ПО Центра Компетенций НТИ по направлению “Искусственный интеллект”