НовостиОбзорыСобытияIT@WorkРеклама
Документооборот/ECM:

Блог

Долговременное хранение ЭД - проблема устаревания форматов (migration vs emulation)

Предыдущие посты по этой теме:
1. Долговременное хранение электронных документов - усовершенствованная электронная подпись (СAdES).
2. Долговременное хранение ЭД - что такое дерево хешей?

Часто на пробему устаревания форматов электронных документов ссылаются как "migration vs emulation", что описывает два основных подхода к решению этой проблемы. Однако существует и третий, на мой взгляд очень интересный подход. Назовем его пока "британский вариант". Теперь обо всем чуть подробнее. [spoiler]

Всем известно, что любой файл, даже простой текстовый, в компьютере хранится в виде набора байтов (некой цифровой последовательности). Это очень удобно для машины, и совершенно непригодно для работы человека. Поэтому любой электронный документ будет состоять минимум из двух элементов: его цифрового представления, которое хранится на носителе информации, и программы, необходимой для отображения его в человекочитаемом виде.

На самом деле, здесь "программа" - это некоторое упрощение, речь должна идти о необходимой программно-аппаратной среде, которая позволит работать с данным форматом файла. Представим например, что в нашем архиве содержится документ, созданный в самой первой версии программы "Лексикон". Нам необходимо просмотреть этот документ. Значит нам необходима первая версия программы "Лексикон". Но эта версия запускается только в операционной системе MS-DOS, а эта операционная система способна работать только на IBM-совместимом компьютере (упрощаю конечно). Стало быть, для работы с документом нам не достаточно одной программы, нужна платформа - IBM-совместимый персональный компьютер с установленной операционной системой MS-DOS и первой версией программы "Лексикон".

Конечно на самом деле все не так страшно. Есть такая вещь, как совместимость между разными версиями одной программы, между разными программами и между операционными системами. Т.е. наш лексиконовский документ скорее всего откроется и в другой версии этой программы и может быть не обязательно в MS-DOS. Вполне вероятно, что удастся запустить его и под Windows (конкретно про Лексикон не могу сказать, не сталкивался). Вобщем на бытовом уровне эта проблема пока достаточно легко решается. Но когда речь идет о долговременном (или даже вечном) хранении электронных документов, о ней стоит задуматься.

Как я уже сказал, существует 2 основных варианта решения этой проблемы. Первый вариант - миграция (migration). Суть его в том, что выбирается единый формат (форматы) архивного хранения документов. При передаче на хранение все документы должны быть преобразованы в этот формат.

Достоинства этого метода очевидны. Заранее зная фиксированный набор форматов, в котором хранятся все документы, мы всегда можем обеспечить доступность средств для их просмотра. Так же несложно разглядеть и его недостатки. Внося ограничения на допустимые форматы, мы тем самым ограничиваем типы информации, которую можно хранить. Ведь не факт, что все документы, которые необходимо хранить, можно представить в текстовом виде, виде таблиц и т.д. Это может быть анимация, видео, звук, живой интернет-сайт, база данных и т.д. Даже если мы выберем стандартные форматы для всех основных видов информации, где гарантия, что в будущем не появятся файлы со свойствами, которые мы сегодня не можем и вообразить. Например с голографической информацией, информацией о запахах и т.д. Для них опять нужно будет выбирать стандартные форматы и обеспечивать их дальнейшую совместимость. При этом не факт, что удастся найти стандартные форматы, способные воспроизводить все необходимые нам сочетания свойств файла (т.е. мы не сможем конкретную информацию преобразовать ни к одному из имеющихся стандартных форматов, сохранив целостность этой информации).

Еще одна проблема этого подхода в том, что наши стандартные форматы будут также устаревать и нам будет необходимо заменять их более новыми форматами. При этом, все уже хранящиеся документы необходимо будет преобразовать (мигрировать) к новому формату. Понятно, что такая процедура должна будет производится автоматически, учитывая огромное число хранящихся документов, а это вносит дополнительные риски утраты или искажения информации.

Второй вариант - "сохранение окружения" (emulation). В наше время повальной виртуализации нет никакой проблемы полностью сохранить все окружение, необходимое для правильного воспроизведения документа. Под этим понимается эмулятор аппаратной платформы, операционная система, набор прикладных программ. Можно представить себе систему, сохраняющую все необходимое окружение в виде виртуальных машин, которые запускаются по запросу и корректно отображают необходимую информацию. Однако, необходимо учитывать, что витруальные машины это по сути также файлы, к которым также применима проблема устаревания форматов. ПО для запуска витруальных машин (гипервизоры) также будет устаревать, будут устаревать платформы, на которых это ПО запускается. Т.е. возвращаемся в исходную точку, что нам делать с виртуалками, мигрировать или эмулировать :)

Как я уже упомянул в начале, есть и третий подход. Это так называемый "бережливый" (parsimonious) подход, который пропагандируется национальным архивом Великобритании. Если очень кратко, то суть его до гениальности проста - "надо решать проблемы по мере их появления"! Конечно какие-то проблемы с форматами нас в будущем непременно ждут. Но что это за проблемы и когда они начнут проявляться никто точно предсказать не может. Незачем сейчас на них тратить столько сил, времени и средств считают мудрые британцы. Помоему стоит прислушаться :) Подробнее об этом подходе можно почитать по ссылке внизу.

Об электронном архивировании (рекомендую английский вариант статьи)
О "бережливом" подходе
Вадим Малых
Да, вопрос именно методологии. На практическом уровне конечно, проблем нет пока. Попытка заглянуть в будущее :) Хотя вот англичане считают что и не надо провидцев из себя строить.
Михаил Романов
У Вас странная манера вести дискуссию, Андрей.
Сначала вы вбрасываете не подкрепленный никакими доказательствами (мнения экспертов я вполне расмматриваю как доказательство, если это мнение обосновано) тезис, а затем удивляетесь, что вам не верят на слово.
Колесов Андрей
Нет, я не удивляюсь, что не верят на слово. Я в комментарии написал другое: о существовании двух методов убеждения - ссылка на авторитетов и научно-логическое доказательство. И что то, что ЭЦП не нужна для архивного хранения -- это можно именно доказать.

Что касается манеры вести дискуссию. Я вполне допускаю, что делаю что-то не так. Но все же давайте поймем, что такое "дискуссия в блоге". Я считаю, что это - "разговор в курилке". Он тоже очень важен и полезен для участников. Но это - разговор в свободное от работы время с очень ограниченными ресурсами (по времени).

Вопрос о долгосрочном хранении документов, с одной стороны - очень-очень сложный, требующий очень серьезных усилий для решения. А с другой стороны - его реальная актуальность не очень понятна.  Точнее мне лично его актуальность понятна -- она низкая.

Для данного разговора у меня есть только 2-3 минуты на комментария (работать нужно!). А для полного ответа на ваш вопрос мне нужно или пару часов, чтобы подобрать ссылки, или еще больше, чтобы представить доказательства. У меня нет столько времени, работать нужно...

Еще раз повторю: разговоры тут, в комментариях блога -- это "разговор в курилке". Полезно, интересно... Но только на это есть 3-5 минут в перерыве между работой.