Сегодня же так много всего: word, excel, xml, pdf, pdf/a, текст, разметка, метаинформация. И как во всем этом grep-ом искать? |
Применительно к электронному документообороту это означает, что первым делом надо отделить сам документ от его представления. Иными словами - содержание от формы.
Рассмотрим простой пример. Я сейчас напишу эту заметку в текстовом редакторе KWrite и сохраню ее на диск под именем grep. Это и есть электронный документ, в котором содержится сам текст.
Потом я опубликую ее на сайте. Это будет уже представление документа, которое абсолютно равноценно любому другому представлению. Например, я могу сохранить эту заметку в виде PDF-файла, вставить ее в тело письма и т.д., и т.п.
С точки зрения формы - это разные файлы. По сути - один и тот же документ.
Если с самого начала разделить подготовку документа и его верстку (форматирование), то никаких сложных средств поиска не понадобится, поскольку все "исходники" хранятся в обычных текстовых файлах. Представление же документа может быть любым - это совершенно непринципиально. И сохранять это "разнообразие" совершенно необязательно.
классическим примером может являться обычный кроссворд:
такой документ без своего представления явно не имеет смысла...
Рассмотрите следующие случаи чтения таблицы 40*1000:
1. Чтение человеком с обычного монитора
2. Чтение с большого экрана на большом расстоянии (рекламные щиты, видеопроекторы)
3. Чтение человеком с устройства с малым дисплеем (телефоны, терминалы сбора данных)
4. Чтение человеком с бумажного носителя (книга, журнал форматов А5 и А4)
4. Чтение слепым человеком.
5. "Чтение" роботом, специализированной программой.
Не кажется ли вам, что представление таблицей 40*1000 является не обязательным для обсуждаемого абстрактного документа, далеко не всегда оптимальным, а в ряде случаем просто недопустимым. Однако это должен оставаться один и тот же документ.
Владису.
Что значит, для "абстрактного документа"?
А что Вы скажете по поводу кроссворда,о чем говорит Дмитрий.
На мой взляд, это очень удачный пример. Кроссворд - явно показывает, что содержание без формы не тянет на документ.