НовостиОбзорыСобытияIT@WorkРеклама
Документооборот/ECM:

Блог

Docflow 2013: Новая алхимия – золото из слов

Речь пойдет о теме первого (по времени) круглого стола, которая была заявлена как «Инструменты анализа структурированных и неструктурированных данных». Сразу скажем, разговор на Docflow не получился.

Получасовой формат требует крайне отточенной подготовки докладчиков и желательно продвинутых и предварительно просвещенных слушателей. Возможно, второе и имело место (все немногие, кого я знал лично, и те, с кем разговорился по ходу – были в теме и достаточно, IMHO, плотно), но краткое (а какое могло быть еще) выступление единственного явившегося эксперта – Александра Рылова (ABBYY) выглядело несколько сумбурным, а последовавшее с неясной целью разделение участников на небольшие группы завершило общую картину судорожной рекогносцировки. Странным образом, все это, однако, вполне гармонировало с неразберихой на рынке content analytics. Второй эксперт (из Forrester) не пришел, возможно, он внес бы некоторую четкость в понимание этого (нарождающегося?) рынка, хотя, надо сказать, что выступление представителя Forrester на пленарном заседании какого-то особого оптимизма в этом отношении внушить не могло.
[spoiler]
Итак, content analytics, text engineering, semantic analysis, text mining или, как назвал это А.Колесов (http://www.pcweek.ru/its/blog/its/4909.php), аналитическая лингвистика (не имею ничего против). Все эти красивые слова указывают на некий класс задач, связанных с получением содержательных умозаключений на основе обработки массы слабоструктурированного контента. Из участников конференции эта тема (на практике) интересует ABBYY и еще АйТи (Логику бизнеса 2.0, см. http://www.pcweek.ru/idea/article/detail.php?ID=140515 , http://www.cnews.ru/news/2013/04/17/novoe_reshenie_logiki_biznesa_20_avtomatiziruet_provedenie_pravovoy_ekspertizy_52­6051 и http://it.ru/press_center/news/5846/ ). Остальных, мне показалось, нет, не интересует. Почему? Не пахнет деньгами. «Контроль исполнения» пахнет (уже много лет одинаково), электронные архивы тоже, а аналитическая лингвистика нет. Это ли не тема для круглого стола. Я не был на других 30-минутных круглых столах и не могу сравнивать их по количеству болельщиков, но обсуждаемый собрал вполне достойную по численности аудиторию. И это при полном отсутствии пока у этой темы какого-либо прикладного звучания – чистая наука. Что за этим стоит? Безразличие к рыночным ценностям? Природное любопытство?

Андрей Колесов (http://www.pcweek.ru/its/blog/its/4909.php) припомнил, что тема появлялась пунктиром на прошлых Docflow. Был бы признателен за уточнение (названия компаний или продуктов) – у меня как-то не отложилось, хоть я и вел некоторый мониторинг.

По содержанию. А.Рылов попытался дать примеры практических задач, решаемых инструментами аналитической лингвистики. Мне они не показались взятыми из практики (например, ABBYY), смотрятся, как вычитанные из маркетологических сказок. Похожий случай, припоминаю, случился 2 года назад при обсуждении проблематики корпоративного полнотекстового поиска (см. http://www.pcweek.ru/ecm/blog/ecm/1185.php). Вообще, по какой-то загадочной для меня причине аналитическую лингвистику, эту наукоемкую и манящую перспективами сферу ИТ, почему-то пока отличают не слишком богатая фантазия и дефицит поставленных практикой содержательных задач. Аналогичное положение сложилось с Большими Данными (Big Data), которые, по существу, являются объемлющей аналитическую лингвистику маркетинговой ИТ-идиомой, так как подразумевают еще и обработку структурированного контента. И это не мое личное. О таком же понимании ситуации свидетельствуют многие публикации (см., например, Ощущение Больших Данных. Хорош и подзаголовок «…не просто позволяет обрабатывать на порядки больше данных, но и помогает находить неожиданные закономерности». Хоть бы один пример. И желательно побольше такой буржуазной назидательности – каким именно образом, найдя неожиданные закономерности, заказчик заработал больше денег).

Это к вопросу о (потенциальной?) прагматической ценности аналитической лингвистики. Но есть и встречные соображения. Импрессионистские выражения-намеки, все эти «ощущения», «предчувствия», «ожидания» и «томления» очень выпукло отражают состояние вопроса. Если вдуматься, однако, ничего априори зазорного тут нет и, возможно, положению и не суждено измениться, и мы просто имеем дело с созреванием новых, не совсем привычных для ИТ бизнес-моделей. В конце концов, биржевая торговля есть не что иное как торговля ожиданиями. Актуальные гранды забега Big Data компании Google и Facebook являются владельцами крупнейших коллекций неструктурированных данных, это соответственно . полнотекстовый индекс всемирного интернета + логи запросов (Google) и социальный граф с более чем миллиардом вершин + инф. потоки на этом графе (Facebook). Насколько сообразительны аналитические роботы, разработанные Google и Facebook, какие нежиданные закономерности они умеют находить в этих текстовых отвалах и терриконах, мы того не знаем, но самого факта обладания огромной массой информации о людях достаточно, чтобы рекламодатели понесли аналитическим лингвистам свои деньги.

Михаил Романов
По содержанию. А.Рылов попытался дать примеры практических задач, решаемых инструментами аналитической лингвистики. Мне они не показались взятыми из практики (например, ABBYY), смотрятся, как вычитанные из маркетологических сказок.
А может это и закономерно?Может, просто нет в корпоративном content management задач, где был бы нужен сложный и непонятный семантический (аналитический, ...) анализ?

Ну а правда, задачами всевозможных хитрых манипуляций с текстовым неструктурированным контентом занимаются давно, еще с 90-х годов. Но какие задачи ставились перед исследователями:
- поиск и извлечение определенных фактов (например, поиск публикаций в Intrnet касательно определенной фигуры, чаще всего - политической).
- оценка общего настроя (эмоционального фона) относительно какой-то фигуры или факта
- поиск и рефереирование текстов заданной тематики
...

Это то, что встречалось мне в разных статьях и обзорах (реально, к сожалению, я подобными вопросами не занимался).
Если посмотреть на этот список - это уникальные, точечные и очень дорогие исследования. Причем, проводящиеся на огромных, никак не упорядоченных выборках документов.

А что у нас в корпоративном контенте? В основном документы, львиная доля которых - фиксация фактов, касающихся хозяйственной деятельности компании.
Этот контент не содержит никакой полезной для анализа информации. Если что-то важное там было (сроуи, суммы, контрагенты, ...) - оно давно вынесено в метаданные, с которыми идет совсем другая работа, а текст самого документа никому уже не интересен.

Да, есть и другого рода контент - аналитические записки, проекты, отчеты, ...
Возможно, для них мы могли бы придумать какие-нибудь полезные сценарии анализа, но наверняка это будут задачи из разряда тех, что я привел выше - очень дорогих в отладке и потому абсолютно бессмысленных на такой куцей выборке.

Я полностью согласен, что ситуация в чем-то напоминает корпоративный поиск!
Именно так - как только мы начинаем сознательно управлять своим внутренним контентом мы волей или неволей снабжаем его массой атрибутов (тегами, метаданными, ссылками между контентом, ...) и необходимости искать или анализировать некие гигантские объемы контента сама собой испаряется - мы более-менее легко выходим на нужные нам документы.
Другое дело, что у корпоративного поиска все равно остается функция "единого окна", там, где имеется приличный зоопарк legacy-систем (чаще всего в компаниях, которые переживали взрывной рост или, что еще характернее, росли за счет поглощения других компаний). Но это так, не относящаяся к основному тренду ремарка.
Александр Сапожников
Спасибо, Михаил, за внимание к теме и резонные (я не сказал бы, что безусловно разделяемые мною) соображения. Понял, что полезно будет чуть шире изложить содержание выступления Александра Рылова и добавить от себя еще некоторые факты/мнения/наблюдения.

1. «неструктурированным контентом занимаются давно, еще с 90-х годов».

Задачами автоматического реферирования занимались (в СССР) еще в середине 70-х (работы велись совместной рабочей группой «Информэлектро» и Института проблем передачи информации (ИППИ АН), это только то, что я помню. Возможно, были и другие. Кстати, в те же годы, велись работы по «машинному чтению» (более позднее название - OCR). Одно время, стартовавший тогда Bit Software (ABBYY) конкурировал с этими старыми разработками (OCR Ocrus) и вытеснил их с рынка). Все эти направления (плюс еще некоторые другие) были объединены в тогдашнем дискурсе названием «искусственный интеллект». Внимание, включаем лингвистический анализатор и учение доктора Фрейда - СЭД в поисках интеллекта. Эти проговорки об интеллекте – суть упорное и бессознательное возвращение убийцы на место преступления. Дело в том, что традиционные ECM/СЭД – продукты с ярко выраженным крайне прагматическим и антиинтеллектуальным характером. Причина этого (не единственная) кратко сформулирована в http://www.pcweek.ru/ecm/blog/ecm/1128.php (тезис 19). Отсюда же справедливо отмечаемые вами, Михаил, моменты «…фиксация фактов, касающихся хозяйственной деятельности компании. Этот контент не содержит никакой полезной для анализа информации…» и «ничего сверхоригинального российские СЭД поставщики и не делают. Для написания еще одной учетной системы (причем примитивной, откровенно говоря), нужна "пара толковых программистов" и все.», см. http://www.pcweek.ru/ecm/blog/ecm/4939.php#23552 . Проблема в том, что рано или поздно такое упрощение потребителя (в данном случае, корпоративного) приводит к оскудению рынка и стагнации. И начинаются все эти «СЭД в поисках…». Основа роста рынка – развитие и дифференциация потребностей. Плоско понятые потребности – убогие и однообразные продукты.

2. Примеры задач аналитической лингвистики, приведенные А.Рыловым, не имеют точек соприкосновения собственно с проблематикой ECM/СЭД. Попробую их пересказать своими словами, чтобы читатель смог сам оценить прав ли был критик или нет, посчитав их искусственными. Вот эти примеры:

2.1 Фармацевтическая компания хотела бы заменить продолжительные и дорогостоящие собственные исследования роботизированными разысканиями в цифровых библиотеках. Для этого программный семантический робот должен уметь идентифицировать статьи по интересующей фирму теме и извлекать из них смысл типа «вещество xxxxx влияет/не влияет/влияет слабо/влияет сильно на функцию организма yyyyyy»

2.2 Производитель гаджетов хочет получить из сети Интернет (включая, конечно, соц. сети) данные об отношении (нравится/не нравится/безразлично) потребителей к его продукции – конкретным изделиям и их конкретным features.  

А.Рылов так же отметил, что для успеха семантического анализа необходимо участие в проектах специалистов-предметников. Сама компания ABBYY являет пример очень успешного междисциплинарного синтеза (хорошо бы еще помнить, что ее отцы-основатели получили отличное базовое физическое и математическое образование). Замечание А.Рылова фиксирует признание того, что прикладные задачи аналитической лингвистики требуют расширения спектра задействованных дисциплин (ИТ-шники (математики) + лингвисты + ??) и такое положение ограничивает возможности самостоятельной разработки Software-вендорами ценных для практики законченных приложений. По продуктовой схеме могут быть разработаны более или менее абстрактные (и сложные для восприятия неспециалистами) инструментальные средства, далее решения с необходимостью должны развиваться по проектной схеме. Т.е. надежды на буквальное повторение истории успеха FineReader’а, когда физики и лингвисты создали понятный простому пользователю продукт – нулевые. Сказанное, кстати, резонирует с замечанием Андрея Храмцовского на круглом столе по вопросам образования (что, мол, кроме айтишников и документоведов есть еще и другие профессионалы – об этом речь впереди).
   
3. Перейдем теперь к семантическому анализу закрытых корпоративных хранилищ контента. Это то, чего А.Рылов непосредственно не касался. Продолжение см. в отд. посте.
Михаил Романов
Александр, спасибо!

Некоторые мои соображения "в догонку"
Проблема в том, что рано или поздно такое упрощение потребителя (в данном случае, корпоративного) приводит к оскудению рынка и стагнации.
.
Это старый вопрос, который я задавал будучи аналитиком в продуктовой компании - как развивать продукт (искать для него новые задачи и ниши). По большому счету все сводится к 2-м сильно расходящимся путям:
  • выявлять реальные потребности клиентов и закрывать их. Не обязательно делать это силами самих клиентов (т.е. наивно ждать, что заказчики придут, изложат задачу, мы ее решим и не долго думая включим в продукт - хотя иногда это тоже работает), как правило, хорошие консультанты могут с ходу рассказать о куче еще не решенных задач и проблем.
  • "создавать" потребности. Это когда вы выпускаете нечто принципиально новое, то, чего никто еще не ждет и не ищет, и под это формируете у рынка потребность.

Мне ближе первый вариант. А вот с аналитической лингвистикой, похоже, работает только второй - ну нету у текущих заказчиков готовых задач, которые только "садись и решай".

такое положение ограничивает возможности самостоятельной разработки Software-вендорами ценных для практики законченных приложений.
Вот вы как подслушали мою так и не высказанную мысль!  ;)
Даже в том перечне задач, которые я перечислил в своем комментарии, 2 - уникальные, затачиваемые под конкретного заказчика, причем затачиваемые когортной профессионалов, решения.
Это не коробка. Это дорого, это не надежно, это решает очень ограниченный круг задач, ...

ABBYY молодцы, что ищут новые идеи. Но я смотрю на сайты RCO или  МедиаЛингва и первый же возникающий вопрос - почему у них ничего не получилось (а другого по этим полузаброшенным сайтам, с новостью раз в год, и не скажешь, если честно)??!!

Перейдем теперь к семантическому анализу закрытых корпоративных хранилищ контента.
Жду! Реально интересно, что, как и кому может быть нужно.