НовостиСобытияКонференцииФорумыIT@Work
Open Source:

Блог

Нет худа без добра

Сергей Голубев
29.02.2012 11:15:16
Теги: Юзабилити

Когда вчера я писал заметку про ответ Минкомсвязи, то мне захотелось вставить в текст цитату из документа. Если первую я смог набрать по памяти, то со второй так просто не получилось. У меня никак не получалось ее запомнить. А метод "копипаста" с PDF, полученным в результате сканирования, не работает.

Пришлось разбираться с распознаванием текста в Linux. Точнее - с утилитой cuneiform. А заодно осознать еще одно преимущество СПО.

Собственно говоря, вся работа свелась к установке утилиты командой urpmi cuneiform -a. Плюс беглое чтение пары заметок, ссылки на которые мне подсказал Google. Через буквально пять минут результат был получен.



Лично я счел его вполне удовлетворительным. Возможно, серьезные знатоки процесса со мной не согласятся, но прошу учесть время, затраченное мной на решение задачи.

Хотелось бы узнать мнение знатоков проприетарного ПО на этот счет. Можно ли получить такой же результат за пять минут и не потратив при этом ни копейки денег? Я почему-то в этом сильно сомневаюсь.

Кстати, напоминаю, что прямо сейчас на странице www.linuxcenter.ru/RH2012 идет прямая трансляция с семинара "Обзор Red Hat Enterprise Linux 6". Рекомендую.

Комментариев: 25

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

Владис
29.02.2012 12:14:09

Если не потратить ни копейки денег, берём тот же cuneiform под винду. И не волнует, ППО оно или СПО, не философский диспут, а задачу решить надо. Устанавливается тоже злементарно в режиме Загрузить/Запустить/клик-клик-клик/Готово.
Не интересны такие задачи (распознать листик) с намёком на холивар.
Может порешаем другую задачу? Например, через секретаря проходить 100+ документов в день, как рукописных, так и машинных, которые нужно отсканировать и распознать достаточно качественно, что бы минимизировать ручное исправление ошибок. Документы бывают разного качества, разной яркости и контрастности, встречаются таблицы, формулы и прочая всякость. Прикинем стоимость решения задачи, включая стоимость трудозатрат секретаря и технического специалиста? smile:D

29.02.2012 12:25:44

Это "неправильная" задача smile:).
Перевод текста из "бумажного" в "электронный" - это либо разовая задача, либо оцифровка библиотек. Если секретарю приходится распознавать текст хотя бы два раза в день, то это решается изменением системы документооборота с целью исключения лишней операции.

DdShurick
29.02.2012 14:20:59

Сергей, есть решение проще.

Код
# pdftotext --help
pdftotext version 0.12.3
Copyright 2005-2009 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2004 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
smile;)

29.02.2012 16:07:11

А можно полную команду с опциями? У меня на выходе получается текстовый файл, в котором два квадратика и больше ничего smile:)

DdShurick
29.02.2012 17:01:02

$ pdftotext --help выдаст все опции. Я не стал копипастить полностью.
$ pdf <Tab> выдаст полный список команд по pdf, в том числе и pdftohtml
А если на выходе квадратики, значит Ubuntu квадратная попалась smile:)

29.02.2012 17:21:38

Разобрался. pdftotext дает хороший результат при изначально "цифровом" PDF (скажем, импортировали документ в этот формат из OOo). Со сканами (картинками) это не работает - там требуется реальное распознавание.

Андрей Губанов
29.02.2012 14:46:07

Утилитой cuneiform можно и из графического интерфейса воспользоваться. Описание установки из репов для Ubuntu тут http://adminway.ru/cuneiform-i-yagf-mozhno-ustanovit-iz-repozitoriya Делаем из-под sudo (проще всего sudo bash smile:) ).

1. Добавление репозитория # echo "deb http://notesalexp.org/debian/`lsb_release -cs`/ `lsb_release -cs` main contrib non-free" | sudo tee -a /etc/apt/sources.list

2. Добавление ключа безопасности wget -O - http://notesalexp.org/debian/alexp_key.asc | sudo apt-key add -

3. apt-get update

4. apt-get install cuneiform yagf

Все, пользуемся. Находится: Приложение -> Офис -> YAGF

Вот тут инструкция по YAGF http://symmetrica.net/cuneiform-linux/yagf-ru.html

Нужно признать, что распознавание - тема, больная для Linux. Вещи, подобной FineReader, в Linux нет пока. Но справедливости ради отметим, что за рубежом и для Windows вещи, подобной Российской FineReader, тоже нет. Лучшая из зарубежных OCR - Readiris PRO только отдаленно приближается.

29.02.2012 15:08:46

Да, но мне YAGF не понравился. Я так и не понял, как скормить ему PDF, пришлось конвертировать в PNG. Впрочем, многостраничный PDF cuneiform тоже не ест - только первую страницу.
Думаю, если по уму и много, то надо написать скриптик, который сделает из PDF постраничные PNG, потом их распознает и склеит текстовые файлы в один.

Андрей Губанов
29.02.2012 15:58:56

PDF, видимо, имеется в виду нераспознанный? Тот, который фактически состоит из картинок?

29.02.2012 16:05:34

Да, разумеется.

Андрей Губанов
29.02.2012 16:04:13

Так YAGF - это фронтенд для cuneiform. Честно, раньше не интересовался особо делами с распознаванием под Linux (да и под Windows тоже). Спасибо Вам, Сергей, что подняли тему. Так вот, оказывается, что кроме cuneiform под Linux вообще ничего для русского языка нет.

29.02.2012 16:17:56

А нужно ли что-то еще? Полагаю, при хорошем скане (если цифровать библиотеки до fb2 или epub) качество будет удовлетворительным и скорость работы высокая. Быстренько распознать страничку тоже можно.

евгений
29.02.2012 21:33:32

FineReader для Linux есть давно в виде движка и библиотек API. Появился в 2004 году.
Ввиду слабой прогнозируемости бизнеса дальше не пошло пока. Хотя готовые вещи с графическим интерфейсом от сторонних авторов на базе этого движка тоже давно созданы.ээээ ... В 2005 еще. Ребздя ну вы даете

01.03.2012 09:23:29

Я правильно понимаю, что форматирование документа не сохранилось?
Это собственно основное, почему Cuneiform в чистую проиграл рынок и был выброшен на свалку отдан в OSS - у них низкая ориентация на конечного пользователя, которому нужен не только текст, а редактируемый документ на базе нередактируемого.
Ну и конечно, высокие требования к качеству сканов.

01.03.2012 10:03:34

Смотря что понимать под форматированием. Абзацы сохранились, а большего, на мой взгляд, не надо.

01.03.2012 10:11:43

Положение изображений, таблицы, семейства и начертания шрифтов, обтекание текстом и т.д.

Цитата
а большего, на мой взгляд, не надо

Вам, возможно. А если посмотреть на форуме ABBYY, то там какраз основные потребности - распознавание документа максимально близко к оригиналу.

Да что там говорить - люди хотят распознавания формул и подписей к чертежам, а вы говорите "текс и абзац" - это действительно нужно мало кому.

01.03.2012 10:16:42

По-моему, мы опять путаем функционал, необходимый технологически и необходимый "бизнес-процессово".

01.03.2012 10:22:50

Нет мы путаем частные потребности (когда можно и правда довольствоваться малым) и потребности тех, кто "девушку ужинает" (платит деньги).

Основная задача систем распознования в Enterprise - получить документ максимально близкий по оформлению к оригиналу, но при этом с возможностью редактирования.
Это когда к вам приходит печатный договор с ошибкой, а оригинал высылать не хотят (вот хоть убейте, не знаю в чем проблема - но ситуация крайне частая). Или когда вы распознаете технический документ, который есть только в виде скана.

Во всех этих и многих других случаях из документа должен быть не только извлечен текст, но и сохранено его оформление (чтобы не верстать его заново).

01.03.2012 10:34:01

Цитата
(вот хоть убейте, не знаю в чем проблема - но ситуация крайне частая)


Так я про это и говорю smile:).

01.03.2012 10:46:26

Про что? Что процессы у людей не отлажены? И что не могут решить свои задачи иными средствами?
Ну да, не могут, поэтому и находят всяческие обходные пути.

И в результате кто-то зарабатывает на имеющейся потребности.

Кстати, продажа FineReader особо много, на сколько я знаю, ABBYY уже не приносит. Оснвной их источник доходов, это Enterprise решения (типа OCR серверов) и конечно распознавание форм.
У Cognitive, кстати, аналогично: единственные оставшиеся у них OCR-продукты это Cognitive Forms и производные.

01.03.2012 10:55:35

Опять согласен. У меня даже выстроилась вот такая зависимость в голове. СПО опережает ППО на понятных задачах и наоборот.
Возможно, Вы скажете, что эти мои слова будут совершенно не в тему, хотя это не так. Два лучших музыкальных плеера под Linux написаны в России smile:).
Почему? Да потому, что процесс прослушивания музыки абсолютно понятен и прозрачен, в отличие от мутных "бизнес-процессов".
Я иногда пытался грузить разработчиков "странными" задачами. Ответ почти всегда один и тот же: "Э-э-э, пусть делают вот так и не морочат себе и людям голову".

01.03.2012 12:51:07

Цитата
Да потому, что процесс прослушивания музыки абсолютно понятен и прозрачен, в отличие от мутных "бизнес-процессов"

В целом и вобщем это так.
Мы с вами как-то говорили, что программирование - это обслуживающая отрасль (за исключением игр).
Она обслуживает:
- другие отрасли(прикладное ПО)
- саму себя (системное ПО)

Так вот, системное ПО (все эти ОС, компиляторы, библиотеки, а также вьюеры, плейеры и пр.) всегда привлекало толпы жаждущих создать очередную "нетленку".
И каждый автор мечтает о признании, выраженном в деньгах или славе.

Но бизнес не хочет платить за компиляторы, ОС и библиотеки. Ведь системное ПО, имеет еще менее очевидную ценность, чем прикладное - оно всегда берется в "нагрузку".

И умные СПО компании это уже давно поняли. Поэтому продают комплексные решения. Не только "еще один дистрибутив", а, средства для разработки корпоративных решений и платформы для них. А в нагрузку - консалтинг в разработке этих самых решений.
Наши же продолжают размахивать дистрибутивами и серверами - которые никуда никому особо не уперлись.

01.03.2012 12:58:37

И тут согласен. Но, на мой взгляд, нужен обоюдный процесс. Чтобы как-то минимизировать ситуации типа "сперва дружно создали сами себе проблему, потом тратим кучу ресурсов на ее решение".
Впрочем, это вообще характерно для России. Где можно сказать два слова, там приходится писать кучу бумаг.

Алексей
05.03.2012 13:28:17

Да распознать документ и еще сохранить его форматирование, это хорошо. Но к чему это приведет страшно подумать.

05.03.2012 13:59:44

А что не так?
Заказчики это делают постоянно - никто худого вроде пока не говорил.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии