НовостиСобытияКонференцииФорумыIT@Work
Документооборот/ECM:

Блог

Если не хватает grep

Сергей Голубев
16.12.2011 10:37:24

В заметке о корпоративном поиске Андрей Колесов рассказал о недостатках инструментария. Я решил вставить свои "пять. коп." и привел в обсуждении команду, при помощи которой решил все свои проблемы раз и навсегда. Впрочем, тут же получил вполне ожидаемое возражение. Вот оно:

Цитата
Сегодня же так много всего: word, excel, xml, pdf, pdf/a, текст, разметка, метаинформация. И как во всем этом grep-ом искать?

В ответ на это я хочу привести одну мудрость, которую усвоил во время срочной службы в армии. Есть задача сложно решается технологически, то следует попробовать решить ее организационно.

Применительно к электронному документообороту это означает, что первым делом надо отделить сам документ от его представления. Иными словами - содержание от формы.

Рассмотрим простой пример. Я сейчас напишу эту заметку в текстовом редакторе KWrite и сохраню ее на диск под именем grep. Это и есть электронный документ, в котором содержится сам текст.

Потом я опубликую ее на сайте. Это будет уже представление документа, которое абсолютно равноценно любому другому представлению. Например, я могу сохранить эту заметку в виде PDF-файла, вставить ее в тело письма и т.д., и т.п.

С точки зрения формы - это разные файлы. По сути - один и тот же документ.

Если с самого начала разделить подготовку документа и его верстку (форматирование), то никаких сложных средств поиска не понадобится, поскольку все "исходники" хранятся в обычных текстовых файлах. Представление же документа может быть любым - это совершенно непринципиально. И сохранять это "разнообразие" совершенно необязательно.

Комментариев: 13

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

Алекс
16.12.2011 21:36:18

Вы заблуждаетесь.
Форма документа имеет самостоятельное и весьма важное значение.
Например, выделение текста цветом, подчеркивание, жирный шрифт, размер и другие атрибуты несут дополнительную информацию (смысл).
Чаще трудозатраты на создание формы гораздо выше, чем на содержание.
Поэтому по сути документ = содержание + форма (представление). Вот носитель, действительно, может быть самым произвольным.

16.12.2011 21:42:23

Хотелось бы пример smile:).

Владис
17.12.2011 22:39:34

Смысл несут не столько "выделение текста цветом, подчеркивание, жирный шрифт, размер и другие атрибуты", а смысловые блоки. Заголовок первого уровня, заголовок второго уровня, цитата, ссылка, важный текст. И так далее. Как эти сбоки оформляются (цветам, шрифтами, пиктограммами...), уже вторично.
Простой пример: решат вот сделать версию этого сайта адаптированную для людей с нарушениями зрения. А это значит все шрифты должны быть увеличены, цвета сделаны контрастными, количество используемых цветов должно быть уменьшего.
А некоторые материалы вообще захотят публиковать для слепых азбукой Брайля. И куда вы свои цвета и подчеркирования засунете в Брайля? smile:D
А ведь для документ остаётся документом не зависимо от того, зрячий человек его читает или слепой. Значит форма (представление) не являются обязательным для документа. Как вам такая логика? smile;)

Алекс
18.12.2011 10:49:40

Форма имеет значение всегда. Попробуйте таблицу из 40 столбцов и 1000 строк прочитать, не преобразуя ее в необходимую форму. Как Вам такая логика?

18.12.2011 10:54:01

А кто спорит с тем, что форма нужна? Но она не должна жестко привязываться к документу.

Дмитрий Менщиков
18.12.2011 11:34:12

Удалите из документа рисунки, и он потеряет свой смысл.

Но проблема даже не в этом, а в том, что сегодня уже есть многообразие форматов - word, excel, pdf. Чтобы перейти на предлагаемый Вами подход (grep), надо чтобы все готовили свои документы тексты в TeX. Но жизнь - многообразнее, и надо работать в этих условиях. Поэтому сегодня не хватает удобной поисковой системы (как личной, так и корпоративной), чтобы находить нужную информацию в документах, созданных самим человеком, его коллегами, среди документов загруженных с различных сайтов, в почте и т.п..
Knowledge sharing, то есть.

18.12.2011 13:06:18

А Вы не путаете многообразие с лишними сущностями?

Дмитрий Менщиков
18.12.2011 13:46:43

Я думаю, что подход, о котором Вы говорите - отделить представления от содержания - безусловно, правильный. Однако позавчера инструментом поиска был один grep, а сегодня почти все можно найти в Google. По идее, у человека на персональном компьютере для его собственной информации тоже должен быть мини-google (пока мы еще не переместились в облака).

18.12.2011 15:18:09

Все правильно. Но размножение сущностей вызывает у меня интуитивные опасения. В том смысле, чем не для нашего блага это делается. Ой, не для нашего.

Владис
19.12.2011 08:39:37

Цитата
Попробуйте таблицу из 40 столбцов и 1000 строк прочитать

Плохая логика. "Читать" это всего лишь одно из применений электронного документа. К тому же, прежде чем говорить, "читать" конкретизируйте, пожалуйста, что под этим вы имеете в виду.
Рассмотрите следующие случаи чтения таблицы 40*1000:
1. Чтение человеком с обычного монитора
2. Чтение с большого экрана на большом расстоянии (рекламные щиты, видеопроекторы)
3. Чтение человеком с устройства с малым дисплеем (телефоны, терминалы сбора данных)
4. Чтение человеком с бумажного носителя (книга, журнал форматов А5 и А4)
4. Чтение слепым человеком.
5. "Чтение" роботом, специализированной программой.
Не кажется ли вам, что представление таблицей 40*1000 является не обязательным для обсуждаемого абстрактного документа, далеко не всегда оптимальным, а в ряде случаем просто недопустимым. Однако это должен оставаться один и тот же документ.

Алекс
18.12.2011 17:17:06

"Удалите из документа рисунки, и он потеряет свой смысл"

Удалите из документа часть текста и он потеряет смысл.
Рисунки - это часть документа (контента). А вот форма - нечто другое, но если форма передачи контента утеряна, вполне вероятно, что и сам контент потеряет смысл полностью или частично. Поэтому документ = содержание + форма.

Дмитрий Менщиков
18.12.2011 23:50:22

Да,
классическим примером может являться обычный кроссворд:
такой документ без своего представления явно не имеет смысла...

Алекс
19.12.2011 17:25:33

"Не кажется ли вам, что представление таблицей 40*1000 является не обязательным для обсуждаемого абстрактного документа, далеко не всегда оптимальным, а в ряде случаем просто недопустимым. Однако это должен оставаться один и тот же документ."

Владису.
Что значит, для "абстрактного документа"?

А что Вы скажете по поводу кроссворда,о чем говорит Дмитрий.
На мой взляд, это очень удачный пример. Кроссворд - явно показывает, что содержание без формы не тянет на документ.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии