НовостиОбзорыСобытияIT@WorkРеклама
Документооборот/ECM:

Блог

Если не хватает grep

В заметке о корпоративном поиске Андрей Колесов рассказал о недостатках инструментария. Я решил вставить свои "пять. коп." и привел в обсуждении команду, при помощи которой решил все свои проблемы раз и навсегда. Впрочем, тут же получил вполне ожидаемое возражение. Вот оно:

Сегодня же так много всего: word, excel, xml, pdf, pdf/a, текст, разметка, метаинформация. И как во всем этом grep-ом искать?
[spoiler]В ответ на это я хочу привести одну мудрость, которую усвоил во время срочной службы в армии. Есть задача сложно решается технологически, то следует попробовать решить ее организационно.

Применительно к электронному документообороту это означает, что первым делом надо отделить сам документ от его представления. Иными словами - содержание от формы.

Рассмотрим простой пример. Я сейчас напишу эту заметку в текстовом редакторе KWrite и сохраню ее на диск под именем grep. Это и есть электронный документ, в котором содержится сам текст.

Потом я опубликую ее на сайте. Это будет уже представление документа, которое абсолютно равноценно любому другому представлению. Например, я могу сохранить эту заметку в виде PDF-файла, вставить ее в тело письма и т.д., и т.п.

С точки зрения формы - это разные файлы. По сути - один и тот же документ.

Если с самого начала разделить подготовку документа и его верстку (форматирование), то никаких сложных средств поиска не понадобится, поскольку все "исходники" хранятся в обычных текстовых файлах. Представление же документа может быть любым - это совершенно непринципиально. И сохранять это "разнообразие" совершенно необязательно.
Дмитрий Менщиков
Да,
классическим примером может являться обычный кроссворд:
такой документ без своего представления явно не имеет смысла...
Владис
Попробуйте таблицу из 40 столбцов и 1000 строк прочитать
Плохая логика. "Читать" это всего лишь одно из применений электронного документа. К тому же, прежде чем говорить, "читать" конкретизируйте, пожалуйста, что под этим вы имеете в виду.
Рассмотрите следующие случаи чтения таблицы 40*1000:
1. Чтение человеком с обычного монитора
2. Чтение с большого экрана на большом расстоянии (рекламные щиты, видеопроекторы)
3. Чтение человеком с устройства с малым дисплеем (телефоны, терминалы сбора данных)
4. Чтение человеком с бумажного носителя (книга, журнал форматов А5 и А4)
4. Чтение слепым человеком.
5. "Чтение" роботом, специализированной программой.
Не кажется ли вам, что представление таблицей 40*1000 является не обязательным для обсуждаемого абстрактного документа, далеко не всегда оптимальным, а в ряде случаем просто недопустимым. Однако это должен оставаться один и тот же документ.
Алекс
"Не кажется ли вам, что представление таблицей 40*1000 является не обязательным для обсуждаемого абстрактного документа, далеко не всегда оптимальным, а в ряде случаем просто недопустимым. Однако это должен оставаться один и тот же документ."

Владису.
Что значит, для "абстрактного документа"?

А что Вы скажете по поводу кроссворда,о чем говорит Дмитрий.
На мой взляд, это очень удачный пример. Кроссворд - явно показывает, что содержание без формы не тянет на документ.