Получасовой формат требует крайне отточенной подготовки докладчиков и желательно продвинутых и предварительно просвещенных слушателей. Возможно, второе и имело место (все немногие, кого я знал лично, и те, с кем разговорился по ходу – были в теме и достаточно, IMHO, плотно), но краткое (а какое могло быть еще) выступление единственного явившегося эксперта – Александра Рылова (ABBYY) выглядело несколько сумбурным, а последовавшее с неясной целью разделение участников на небольшие группы завершило общую картину судорожной рекогносцировки. Странным образом, все это, однако, вполне гармонировало с неразберихой на рынке content analytics. Второй эксперт (из Forrester) не пришел, возможно, он внес бы некоторую четкость в понимание этого (нарождающегося?) рынка, хотя, надо сказать, что выступление представителя Forrester на пленарном заседании какого-то особого оптимизма в этом отношении внушить не могло.
[spoiler]
Итак, content analytics, text engineering, semantic analysis, text mining или, как назвал это А.Колесов (http://www.pcweek.ru/its/blog/its/4909.php), аналитическая лингвистика (не имею ничего против). Все эти красивые слова указывают на некий класс задач, связанных с получением содержательных умозаключений на основе обработки массы слабоструктурированного контента. Из участников конференции эта тема (на практике) интересует ABBYY и еще АйТи (Логику бизнеса 2.0, см. http://www.pcweek.ru/idea/article/detail.php?ID=140515 , http://www.cnews.ru/news/2013/04/17/novoe_reshenie_logiki_biznesa_20_avtomatiziruet_provedenie_pravovoy_ekspertizy_52
Андрей Колесов (http://www.pcweek.ru/its/blog/its/4909.php) припомнил, что тема появлялась пунктиром на прошлых Docflow. Был бы признателен за уточнение (названия компаний или продуктов) – у меня как-то не отложилось, хоть я и вел некоторый мониторинг.
По содержанию. А.Рылов попытался дать примеры практических задач, решаемых инструментами аналитической лингвистики. Мне они не показались взятыми из практики (например, ABBYY), смотрятся, как вычитанные из маркетологических сказок. Похожий случай, припоминаю, случился 2 года назад при обсуждении проблематики корпоративного полнотекстового поиска (см. http://www.pcweek.ru/ecm/blog/ecm/1185.php). Вообще, по какой-то загадочной для меня причине аналитическую лингвистику, эту наукоемкую и манящую перспективами сферу ИТ, почему-то пока отличают не слишком богатая фантазия и дефицит поставленных практикой содержательных задач. Аналогичное положение сложилось с Большими Данными (Big Data), которые, по существу, являются объемлющей аналитическую лингвистику маркетинговой ИТ-идиомой, так как подразумевают еще и обработку структурированного контента. И это не мое личное. О таком же понимании ситуации свидетельствуют многие публикации (см., например, Ощущение Больших Данных. Хорош и подзаголовок «…не просто позволяет обрабатывать на порядки больше данных, но и помогает находить неожиданные закономерности». Хоть бы один пример. И желательно побольше такой буржуазной назидательности – каким именно образом, найдя неожиданные закономерности, заказчик заработал больше денег).
Это к вопросу о (потенциальной?) прагматической ценности аналитической лингвистики. Но есть и встречные соображения. Импрессионистские выражения-намеки, все эти «ощущения», «предчувствия», «ожидания» и «томления» очень выпукло отражают состояние вопроса. Если вдуматься, однако, ничего априори зазорного тут нет и, возможно, положению и не суждено измениться, и мы просто имеем дело с созреванием новых, не совсем привычных для ИТ бизнес-моделей. В конце концов, биржевая торговля есть не что иное как торговля ожиданиями. Актуальные гранды забега Big Data компании Google и Facebook являются владельцами крупнейших коллекций неструктурированных данных, это соответственно . полнотекстовый индекс всемирного интернета + логи запросов (Google) и социальный граф с более чем миллиардом вершин + инф. потоки на этом графе (Facebook). Насколько сообразительны аналитические роботы, разработанные Google и Facebook, какие нежиданные закономерности они умеют находить в этих текстовых отвалах и терриконах, мы того не знаем, но самого факта обладания огромной массой информации о людях достаточно, чтобы рекламодатели понесли аналитическим лингвистам свои деньги.
Ну а правда, задачами всевозможных хитрых манипуляций с текстовым неструктурированным контентом занимаются давно, еще с 90-х годов. Но какие задачи ставились перед исследователями:
- поиск и извлечение определенных фактов (например, поиск публикаций в Intrnet касательно определенной фигуры, чаще всего - политической).
- оценка общего настроя (эмоционального фона) относительно какой-то фигуры или факта
- поиск и рефереирование текстов заданной тематики
...
Это то, что встречалось мне в разных статьях и обзорах (реально, к сожалению, я подобными вопросами не занимался).
Если посмотреть на этот список - это уникальные, точечные и очень дорогие исследования. Причем, проводящиеся на огромных, никак не упорядоченных выборках документов.
А что у нас в корпоративном контенте? В основном документы, львиная доля которых - фиксация фактов, касающихся хозяйственной деятельности компании.
Этот контент не содержит никакой полезной для анализа информации. Если что-то важное там было (сроуи, суммы, контрагенты, ...) - оно давно вынесено в метаданные, с которыми идет совсем другая работа, а текст самого документа никому уже не интересен.
Да, есть и другого рода контент - аналитические записки, проекты, отчеты, ...
Возможно, для них мы могли бы придумать какие-нибудь полезные сценарии анализа, но наверняка это будут задачи из разряда тех, что я привел выше - очень дорогих в отладке и потому абсолютно бессмысленных на такой куцей выборке.
Я полностью согласен, что ситуация в чем-то напоминает корпоративный поиск!
Именно так - как только мы начинаем сознательно управлять своим внутренним контентом мы волей или неволей снабжаем его массой атрибутов (тегами, метаданными, ссылками между контентом, ...) и необходимости искать или анализировать некие гигантские объемы контента сама собой испаряется - мы более-менее легко выходим на нужные нам документы.
Другое дело, что у корпоративного поиска все равно остается функция "единого окна", там, где имеется приличный зоопарк legacy-систем (чаще всего в компаниях, которые переживали взрывной рост или, что еще характернее, росли за счет поглощения других компаний). Но это так, не относящаяся к основному тренду ремарка.
1. «неструктурированным контентом занимаются давно, еще с 90-х годов».
Задачами автоматического реферирования занимались (в СССР) еще в середине 70-х (работы велись совместной рабочей группой «Информэлектро» и Института проблем передачи информации (ИППИ АН), это только то, что я помню. Возможно, были и другие. Кстати, в те же годы, велись работы по «машинному чтению» (более позднее название - OCR). Одно время, стартовавший тогда Bit Software (ABBYY) конкурировал с этими старыми разработками (OCR Ocrus) и вытеснил их с рынка). Все эти направления (плюс еще некоторые другие) были объединены в тогдашнем дискурсе названием «искусственный интеллект». Внимание, включаем лингвистический анализатор и учение доктора Фрейда - СЭД в поисках интеллекта. Эти проговорки об интеллекте – суть упорное и бессознательное возвращение убийцы на место преступления. Дело в том, что традиционные ECM/СЭД – продукты с ярко выраженным крайне прагматическим и антиинтеллектуальным характером. Причина этого (не единственная) кратко сформулирована в http://www.pcweek.ru/ecm/blog/ecm/1128.php (тезис 19). Отсюда же справедливо отмечаемые вами, Михаил, моменты «…фиксация фактов, касающихся хозяйственной деятельности компании. Этот контент не содержит никакой полезной для анализа информации…» и «ничего сверхоригинального российские СЭД поставщики и не делают. Для написания еще одной учетной системы (причем примитивной, откровенно говоря), нужна "пара толковых программистов" и все.», см. http://www.pcweek.ru/ecm/blog/ecm/4939.php#23552 . Проблема в том, что рано или поздно такое упрощение потребителя (в данном случае, корпоративного) приводит к оскудению рынка и стагнации. И начинаются все эти «СЭД в поисках…». Основа роста рынка – развитие и дифференциация потребностей. Плоско понятые потребности – убогие и однообразные продукты.
2. Примеры задач аналитической лингвистики, приведенные А.Рыловым, не имеют точек соприкосновения собственно с проблематикой ECM/СЭД. Попробую их пересказать своими словами, чтобы читатель смог сам оценить прав ли был критик или нет, посчитав их искусственными. Вот эти примеры:
2.1 Фармацевтическая компания хотела бы заменить продолжительные и дорогостоящие собственные исследования роботизированными разысканиями в цифровых библиотеках. Для этого программный семантический робот должен уметь идентифицировать статьи по интересующей фирму теме и извлекать из них смысл типа «вещество xxxxx влияет/не влияет/влияет слабо/влияет сильно на функцию организма yyyyyy»
2.2 Производитель гаджетов хочет получить из сети Интернет (включая, конечно, соц. сети) данные об отношении (нравится/не нравится/безразлично) потребителей к его продукции – конкретным изделиям и их конкретным features.
А.Рылов так же отметил, что для успеха семантического анализа необходимо участие в проектах специалистов-предметников. Сама компания ABBYY являет пример очень успешного междисциплинарного синтеза (хорошо бы еще помнить, что ее отцы-основатели получили отличное базовое физическое и математическое образование). Замечание А.Рылова фиксирует признание того, что прикладные задачи аналитической лингвистики требуют расширения спектра задействованных дисциплин (ИТ-шники (математики) + лингвисты + ??) и такое положение ограничивает возможности самостоятельной разработки Software-вендорами ценных для практики законченных приложений. По продуктовой схеме могут быть разработаны более или менее абстрактные (и сложные для восприятия неспециалистами) инструментальные средства, далее решения с необходимостью должны развиваться по проектной схеме. Т.е. надежды на буквальное повторение истории успеха FineReader’а, когда физики и лингвисты создали понятный простому пользователю продукт – нулевые. Сказанное, кстати, резонирует с замечанием Андрея Храмцовского на круглом столе по вопросам образования (что, мол, кроме айтишников и документоведов есть еще и другие профессионалы – об этом речь впереди).
3. Перейдем теперь к семантическому анализу закрытых корпоративных хранилищ контента. Это то, чего А.Рылов непосредственно не касался. Продолжение см. в отд. посте.
Некоторые мои соображения "в догонку"
Это старый вопрос, который я задавал будучи аналитиком в продуктовой компании - как развивать продукт (искать для него новые задачи и ниши). По большому счету все сводится к 2-м сильно расходящимся путям:
Мне ближе первый вариант. А вот с аналитической лингвистикой, похоже, работает только второй - ну нету у текущих заказчиков готовых задач, которые только "садись и решай".
Даже в том перечне задач, которые я перечислил в своем комментарии, 2 - уникальные, затачиваемые под конкретного заказчика, причем затачиваемые когортной профессионалов, решения.
Это не коробка. Это дорого, это не надежно, это решает очень ограниченный круг задач, ...
ABBYY молодцы, что ищут новые идеи. Но я смотрю на сайты RCO или МедиаЛингва и первый же возникающий вопрос - почему у них ничего не получилось (а другого по этим полузаброшенным сайтам, с новостью раз в год, и не скажешь, если честно)??!!