НовостиСобытияКонференцииФорумыIT@Work
Документооборот/ECM:

Блог

ФНС - лидер освоения электронного документооборота, но ошибок в базах пока слишком много...

Алексей Воронин
17.09.2013 18:23:56

На секции, посвященной СЭД в госсекторе, в рамках саммита RECS, был достаточно яркий доклад Павла Плотникова, главного маркетолога компании "ЭЛАР". Маркетологам и полагается быть яркими иначе не продвинешь бренд своей компании, но некоторые тезисы этого доклада могут стать поводом для содержательной дискуссии на тему реального состояния электронного документооборота в государственном секторе.

Спикер, например, сделал утверждение о том, что единственная сфера российского госсектора, где реально хорошо могут работать программы оптического распознавания символов (OCR) - это российские суды. Просто потому что там, насколько я понял, форма документов строго регламентирована и их заполнение тоже, что позволяет существенно снижать процент брака при сканировании и распознавании документов. В остальных же областях госсектора даже относительно низкая доля ошибок порядка 10% приводит к большим трудозатратам (порядка 40% рабочего времени), что делает процесс не слишком эффективным. Все это приводит к большому количеству ошибок в базе документов, в том числе и особенно в региональных базах лидера в плане освоения электронного документооборота - ФНС...

Комментариев: 32

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

17.09.2013 20:53:03

Цитата
был достаточно яркий доклад


Определение "яркий" имеет довольно двусмысленное значение. "Яркая девушка" совсем не является синонимом "правильная". smile:) А попробуйте назвать, скажет, самого "яркого трибуна" ГосДумы?

Это уже третий пост за два дня по поводу этого докглада (от двух разных авторов, тут первый и второй), но я до сих пор, так и не понял, в чем была суть выступления, а тем более какие вопросы могли бы послужить поводом для дискуссии.

С большим трудом догадываюсь, что обсуждаемой проблемой был вопрос перевода бумажных архивов в электронный вид. Если это так, то почему бы об этом так и не сказать?
Но если это так, то при чем тут вопросы OCR, посколько при сканированнии архивов часто преобразования в текстовый вид не производиться вовсе?
Вызывают сомнения цифры в 10% ошибок и 40% рабочего времени. Но спорить по ним не вижу необходимости, поскольку не очень понять о чем тут спорить.

Лидерство ФНС - это тоже сомнительный тезис, хотя бы по тому что не очень понятно, по какому показателю эта служба лидер - по числу ошибок в базах данных?

17.09.2013 22:31:52

По этой секции Денис должен написать статью, и там, Андрей, надеюсь, ты удовлетворишь свое жадное любопытство насчет сути этого доклада и других, прозвучавших на сессии. Что касается твоих терминологических изысканий... "Правильный" в применении к докладу - это вообще непонятно что. Какие могут быть правила у доклада? Содержательным - да, но не правильным. Интересным для слушателя, запоминающимся - да. Это и можно выразить одним словом - "яркий". И при чем здесь твоя " яркая девушка", равно как, к примеру, "правильная девушка" и любая другая мне непонятно. OCR - первичный этап многих СЭД-проектов, в том числе и проектов, о которых расказывал спикер (в частности - в ЯНАО, в системе мировой юстиции). Он же привел цифры (10 и 40%) применительно к ФНС. О ФНС как о лидере государственного сектора РФ в сфере внедрения СЭД говорят многие специалисты, и в том числе это озвучил докладчик. Еще вопросы?

17.09.2013 22:38:35

Да, нет у меня никакого жадного любопытства! Тем более, что после трех постов (три поста!) по одному докладу невозможно понять суть обсуждаемой проблемы... Я просто подумал, что не пора ли мне переквалицифироваться в управдомы smile:)

17.09.2013 22:56:56

smile:) ну, если коротко, то во вводной части он остановился на сложностях российского документооборота (много плохих документов, слабоструктурированных и тд), и еще о том как правильно выбирать сканеры для потокового ввода для проектов в госсекторе, а потом рассказал о двух реализованных проектах - в мировой юстиции ЯНАО (электронное хранилище документов) и в РФФИ (обработка первичной документации)

17.09.2013 23:04:07

Любопытство так и не появлось smile:)

А дискутировать-то тут о чем? А что выбор сканеров для госсектора или для негос чем-то отличаются?

17.09.2013 23:20:18

Да (выбор сканеров) - об этом см. мой предыдущий пост и комментарий к нему самого докладчика. О степени эффективности OCR при потоковом вводе документов тоже можно поспорить, разные оценки и разная практика, в госсекторе и в коммерческом.

17.09.2013 23:27:50

Выбор для госсектора отличается от выбора для негоссектора?
Чем же он отличается? В чем специфика?

Конрететно: какие сканеры рекомендуются госсектору, а какие - негос?

17.09.2013 23:40:08

Альфа-Банку для системы потокового ввода документов при обработке заявок на получение кредитов в ряде случаев нужны высокопроизводительные дорогие сканеры (промышленные, с показателем более 5000 стр. в день), а системе мировой юстиции Ямало-Ненецкого автономного округа во всех случаях достаточно недорогих низкопроизводительных. Так достаточно конкретно? smile:)

18.09.2013 00:02:23

Нет, совсем не конкретно.

При чем тут "гос" и "негос"?

Это зависит от объема ввода, а не от категории клиента.

У Альфа-Банка - миллион документов в день, а в ЯМАО - 10 (десять штук)
А в моей персональной работе потребность 1 документ в месяц.

Давайте устроим дискуссию на тему, каки сканеры нужны Альфа-Банку и какие Андрею Колесову.

Можно спорить, сколько угодно, но я не куплю потовый сканер, а банк вряд ли купит минисканер, который стоит у меня.

Так о чем дискуссия-то?

18.09.2013 00:21:56

Андрей, я больше не буду с тобой спорить. Ты действуешь как карточный шулер - передергиваешь и достаешь карты из рукава. Если тебя по сути не устраивает мой пост, кажется надуманным - не ставь его в блог, ты же модератор, а не управдом

18.09.2013 01:04:49

Нет, я просто хочу понять, о чем был доклад.
О нем написали сразу два автора независимо. Ни про один другой никто не написал вообще. Значит, это было действительно интересное выступление!
Но при этом, будучи немного в теме, я искренне не пойму - что именно там было интересного?!
Вопрос только в этом.

18.09.2013 01:19:19

Ну, на мой взгляд, в нем были любопытные моменты, о которых я и попытался рассказать. Наверное, стоит подождать, что напишет Денис. На этой секции я был всего на двух последних докладах - этом и еще одном, по СЭДу для правительства Москвы, очень формальном и общем, как мне показалось, а про другие доклады ничего не могу сказать

18.09.2013 10:08:32

Андрей,
это вообще не был доклад - это был монолог о моем виденье проблемы создания электронных ресурсов в России на примерах госструктур.
Основной тезис (думаю он вызовет бурю гнева) - Прежде чем строить СЭДы и СМЭВы нужно подумать что и в каком виде по ним будет передаваться - электронных документов почти нет, электронных сведений мало, в базовых реестрах полно ошибок, а работать с бумагой долго и муторно.
Так что я по сути отвечал на вопрос "Что делать?" и "Как это уже делается!"

18.09.2013 10:22:40

Я тут участвую сугубо как читалель. Который, все же немного "в теме", но не был на секции, и мне интересно, что же там было познавательного.

И понять я этого упорно не могу. При этом я отметил, что сразу два автора, независимо друг от друга, обратили внимание (один - дважды!) на один и тот же доклад (среди десятка других).
А понять - что же там содержательного и нового я (читалель) не могу.
И ответов "что делать" я тоже не увидел.

Может быть, для начала стоило бы просто опубликовать презентацию? .

18.09.2013 10:32:00

Презентация опубликована и довольно давно, но по сложившейся традиции мои доклады и презентация имеют общее только название и примеры. Я предпочитаю говорить НЕ по слайдам smile:)
http://pplotnikov.ru/?p=1913

18.09.2013 10:48:55

Тогда приведите слова.
Способов много. Например, можно было записать это на диктофон (он есть в любом телефоне) и выложить запись. Можно было бы сделать текстовую расшифовку (это совсем не дорого - 0,6 долл за 1 Кб текста,

Был бы прекрасный пример использования "электронного документа" на практике smile:)

18.09.2013 10:53:44

Андрей,
вы наверное правы. Нужно просто выделить время и написать статью. Займусь как я этим в ближайших командировках. Если что-то получится - опубликую и пришлю Вам для разгромной рецензии smile:))

18.09.2013 10:13:10

А вот есть разница между госами и коммерсантами! И очень даже существенная!!!
Скажу больше - есть существенная разница какой сканер для областной библиотеки и для ВУЗовской, а уж между госами и коммерсами она просто огромная!!! И дело не только в задачах и документах, а в методах построения центров оцифровки, в политике и экономики этих совершенно разных структур.

18.09.2013 10:17:41

А в чем разница-то? И для кого она важна?

Я пока только вижу тут тезисы о наличии разницы, но они а) бездоказательны б) самое главное непонятно - а кому до этой разницы есть дело?

18.09.2013 10:27:26

а) Вам ничего доказать нельзя - это против правил (ваших же!) smile:)
б) До этой разнице есть дело тем кто реально занимается оцифровкой и создает центры для сканирования документов.

А что касается в чем разница-то ....
то тут нужно целую статью писать smile:) Но если коротко, то могу сказать следующее:
Когда коммерческая компания задумывается над созданием центра оцифровки, она считает эффективность, рассматривает варианты оптимизации бизнесс-процессов, автоматизацию ручного труда и т.д. В госах никто о таком даже не думает. У них задача сделать все чтобы не нарушить инструкцию и регламенты, и ни о какой эффективности речь не идет. Думаю Вы согласитесь что при таких подходах организация дел идет по разному ..... Хотя что это я, как Вы можете с кем-то согласиться..... smile:)

18.09.2013 10:44:35

О каких правилах вы говорить? Это похоже на "уход" от реального обсуждения со ссылками на несуществующие правила, да еще и с обвинением (именно так), что их установил оппонент.

Ну, вот теперь, после двух дней публикаций, наконец-то сформулирован понятны тезис. Хотя - давно известный.

Ну, и что из этого? Да давным давно изветсно, что бизнес нацелен на повышение эффективности бизнеса, а госструктуры - на исполнение спущенных сверху регламентов. И что дальше?

Я предлагаю закончить эту дискуссию с вытягиванием (с огромными усилиями) тезисов. Икренне советую: напиши все это в каком-то последовательном виде. Тогда и будет предмет для обсуждения.

18.09.2013 10:34:33

Алексей,
спасибо за лестную оценку моего доклада.

18.09.2013 14:41:33

Цитата
В остальных же областях госсектора даже относительно низкая доля ошибок порядка 10% приводит к большим трудозатратам (порядка 40% рабочего времени), что делает процесс не слишком эффективным.

Кстати, это очень больная тема, которую понимают далеко не все.
Я почти всегда, когда речь заходит о качестве распознавания чего бы то ни было, вспоминаю рассказа своего научного руководителя, который занимался вопросами распознавания в картографии. И в частности на заре 90-х они занимались оцифровкой имевшихся топографических (кажется) карт.
Так вот традиционный способ - когда бумага кладется на планшет и оператор "протыкивает" каждую линию. Это кропотливая и довольно муторная работа. Её решили ускорить, взяв имевшиеся на рынке векторизаторы. Векторизаторы работали вполне не плохо - давали примерно 10% ошибок. Прикинули, что уж 10% можно потом уже в электронном виде поправить...

В результате от способа пришлось отказаться - ошибок действительно было не более 10%, но это были ошибки, на исправление которых (линия, ушла не по тому пути, контур замкнулся не верно, ...) уходило на много больше времени, чем на банальное "протыкивание".

Так что, несмотря на то, что такого опыта как у ЭЛАР, в эти цифры я охотно верю.

18.09.2013 15:07:14

Никто не спорит с тем, что это оптимизация процесса перевода бумажных данных в цифровой вид - это серьезная проблема. Дело в другом: из описания доклада просто не понятно, какие проблемы там обсуддались и какие решения проблем предлагались. Вот о чем речь.

18.09.2013 15:13:06

Да я и не оспариваю.
Если Павел по итогам напишет-таки статью, я с удовольствием ее прочту (хотя уверен, что его выступление смотрелось всяко колоритнее).

Я всего лишь увидел отсылку на страрое-старое заблуждение из области сканирования, с которым приходилось бороться (когда я еще работал в области ЭДО). И, что называется, не удержался smile:)

18.09.2013 20:22:31

Извините, что продолжаю тему: какое именно заблуждение?

То, что OCR - дело непростое. Это понятно.
Оно становится "выгодным" по сравнению с ручными вводом только при достижении некоторого порога качества (опять же, этот порог разные, зависит от конретного проекта).

Но! Проверка вводенной информации должна осуществляться в любом случае!!! Хоть при ручном, хоть при автоматическом преобразовании.

Наличие ошибок в базах данных (а это, судя по всему информация класса "рекодсов") недопустимо в любом случае. Это, скорее, всего не связано с типом преобразования бумаги в электронный вид (ручной или автоматический), а с тем, что просто плохо поставлен процесс формирования баз данных. Т.е. сканеры тут не причем - плохо организован процесс.

19.09.2013 11:33:36

Цитата
Извините, что продолжаю тему: какое именно заблуждение?

Я имею в виду заблуждение, что если мы смогли автоматизировать ввод с 90% качеством, то на ввод оставшегося мы потратим не более 10% усилий как если бы вводили вручную.

В реальности верификация и особенно исправление ошибок после автоматического ввода может эти пресловуте 10% превышать в разы.
Это, конечно, не обязательно так, и в большинстве случаев удается отлавливать и исправлять ошибки практически полностью автоматически, однако до шапкозакидания ой как далеко.

Цитата
просто плохо поставлен процесс формирования баз данных. Т.е. сканеры тут не причем - плохо организован процесс.

А разве кто-то грешит на сканеры?
Павел вполне четко обначил наличие проблемы: автоматический ввод в текущей ситуации получается очень затратным. В чем именно беда надо смотреть отдельно.
Я могу предпологать, что:
1. Есть проблемы с достоверностью и актуальностью баз. Эта проблема мне немного знакома по рассказам человека, который ведет эти базы в одном из региональных отделений ФНС. Проблема в том, что ФНС получает данные из 10-ов разных мест: из ГИБДД, земельного кадастра, регистрационной платы, ... У каждой организации свои представления, правила хранения, свои ошибки, ... Все эти базы нужно сводить воедино. Иногда очень нетривиальными способами.
Более того, некоторые ведомства вообще ведут свои базы крайне халтурно и повлиять на них ФНС не может. Приходится работать с тем что есть.

Да это проблема процесса, да она решается очень медленно. Но у ФНС нет варианта "подождать пока все устаканится и можно будет заниматься делом в свое удовольствие".

2. Люди (и физлица и организации), которые заполняют налоговую отчетность, не особо заботятся о правильном указании кодов, имен из справочников, ...
В общем, с этим разбираться приходится долго и упорно. И никакое продвинутое распознавание здесь просто не помогает.

19.09.2013 17:44:03

Все это требует серьезного анализа, а не на уровне маркетинговых лозуногов.
Я думаю, что ошибки в электронных базах данных - это на 90% ошибки, перекочевавших из бумажных.

19.09.2013 17:45:33

Цитата
Все это требует серьезного анализа, а не на уровне маркетинговых лозуногов.

Зачем?
Мы можем верить или не верить Павлу.

Мой опыт говорит, что такое возможно. Поэтому я верю. Серьезный анализ мне не нужен.

19.09.2013 17:50:55

Лично я тоже вполне верю, что качество OCR имеет 10% ошибок. И не собираюсь с этим спорить. Ну, 10, а может 20. Ну и что?

С таким же успехом, я могу сказать, что на улицах Москву проиходит какое-то количество аварий. Ну и что? Нет ни постановки проблемы, ни предложений по ее решению.

Чему был посвящен доклад? Как снизить процент с 10 до 5? Из инфо я понял, что не об этом. О чем тогда?

19.09.2013 17:53:42

Цитата
Чему был посвящен доклад? Как снизить процент с 10 до 5? Из инфо я понял, что не об этом. О чем тогда?

Не знаю. Я не был на докладе.
Спросите Павла или Алексея.

19.09.2013 17:57:19

Я у них тут и спрашиваю. Впрочем, возможно, "а доцент (слушатель) - тупой" smile:)

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии