НовостиСобытияКонференцииФорумыIT@Work
Документооборот/ECM:

Блог

Долговременное хранение ЭД - проблема устаревания форматов (migration vs emulation)

Вадим Малых
09.01.2014 22:35:28

Предыдущие посты по этой теме:
1. Долговременное хранение электронных документов - усовершенствованная электронная подпись (СAdES).
2. Долговременное хранение ЭД - что такое дерево хешей?

Часто на пробему устаревания форматов электронных документов ссылаются как "migration vs emulation", что описывает два основных подхода к решению этой проблемы. Однако существует и третий, на мой взгляд очень интересный подход. Назовем его пока "британский вариант". Теперь обо всем чуть подробнее.

Всем известно, что любой файл, даже простой текстовый, в компьютере хранится в виде набора байтов (некой цифровой последовательности). Это очень удобно для машины, и совершенно непригодно для работы человека. Поэтому любой электронный документ будет состоять минимум из двух элементов: его цифрового представления, которое хранится на носителе информации, и программы, необходимой для отображения его в человекочитаемом виде.

На самом деле, здесь "программа" - это некоторое упрощение, речь должна идти о необходимой программно-аппаратной среде, которая позволит работать с данным форматом файла. Представим например, что в нашем архиве содержится документ, созданный в самой первой версии программы "Лексикон". Нам необходимо просмотреть этот документ. Значит нам необходима первая версия программы "Лексикон". Но эта версия запускается только в операционной системе MS-DOS, а эта операционная система способна работать только на IBM-совместимом компьютере (упрощаю конечно). Стало быть, для работы с документом нам не достаточно одной программы, нужна платформа - IBM-совместимый персональный компьютер с установленной операционной системой MS-DOS и первой версией программы "Лексикон".

Конечно на самом деле все не так страшно. Есть такая вещь, как совместимость между разными версиями одной программы, между разными программами и между операционными системами. Т.е. наш лексиконовский документ скорее всего откроется и в другой версии этой программы и может быть не обязательно в MS-DOS. Вполне вероятно, что удастся запустить его и под Windows (конкретно про Лексикон не могу сказать, не сталкивался). Вобщем на бытовом уровне эта проблема пока достаточно легко решается. Но когда речь идет о долговременном (или даже вечном) хранении электронных документов, о ней стоит задуматься.

Как я уже сказал, существует 2 основных варианта решения этой проблемы. Первый вариант - миграция (migration). Суть его в том, что выбирается единый формат (форматы) архивного хранения документов. При передаче на хранение все документы должны быть преобразованы в этот формат.

Достоинства этого метода очевидны. Заранее зная фиксированный набор форматов, в котором хранятся все документы, мы всегда можем обеспечить доступность средств для их просмотра. Так же несложно разглядеть и его недостатки. Внося ограничения на допустимые форматы, мы тем самым ограничиваем типы информации, которую можно хранить. Ведь не факт, что все документы, которые необходимо хранить, можно представить в текстовом виде, виде таблиц и т.д. Это может быть анимация, видео, звук, живой интернет-сайт, база данных и т.д. Даже если мы выберем стандартные форматы для всех основных видов информации, где гарантия, что в будущем не появятся файлы со свойствами, которые мы сегодня не можем и вообразить. Например с голографической информацией, информацией о запахах и т.д. Для них опять нужно будет выбирать стандартные форматы и обеспечивать их дальнейшую совместимость. При этом не факт, что удастся найти стандартные форматы, способные воспроизводить все необходимые нам сочетания свойств файла (т.е. мы не сможем конкретную информацию преобразовать ни к одному из имеющихся стандартных форматов, сохранив целостность этой информации).

Еще одна проблема этого подхода в том, что наши стандартные форматы будут также устаревать и нам будет необходимо заменять их более новыми форматами. При этом, все уже хранящиеся документы необходимо будет преобразовать (мигрировать) к новому формату. Понятно, что такая процедура должна будет производится автоматически, учитывая огромное число хранящихся документов, а это вносит дополнительные риски утраты или искажения информации.

Второй вариант - "сохранение окружения" (emulation). В наше время повальной виртуализации нет никакой проблемы полностью сохранить все окружение, необходимое для правильного воспроизведения документа. Под этим понимается эмулятор аппаратной платформы, операционная система, набор прикладных программ. Можно представить себе систему, сохраняющую все необходимое окружение в виде виртуальных машин, которые запускаются по запросу и корректно отображают необходимую информацию. Однако, необходимо учитывать, что витруальные машины это по сути также файлы, к которым также применима проблема устаревания форматов. ПО для запуска витруальных машин (гипервизоры) также будет устаревать, будут устаревать платформы, на которых это ПО запускается. Т.е. возвращаемся в исходную точку, что нам делать с виртуалками, мигрировать или эмулировать smile:)

Как я уже упомянул в начале, есть и третий подход. Это так называемый "бережливый" (parsimonious) подход, который пропагандируется национальным архивом Великобритании. Если очень кратко, то суть его до гениальности проста - "надо решать проблемы по мере их появления"! Конечно какие-то проблемы с форматами нас в будущем непременно ждут. Но что это за проблемы и когда они начнут проявляться никто точно предсказать не может. Незачем сейчас на них тратить столько сил, времени и средств считают мудрые британцы. Помоему стоит прислушаться smile:) Подробнее об этом подходе можно почитать по ссылке внизу.

Об электронном архивировании (рекомендую английский вариант статьи)
О "бережливом" подходе

Комментариев: 35

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

10.01.2014 00:25:17

Даже не читая английской статьи, могу категорически сказать, что вариант "решать проблемы по мере их появления" принципиально не верен. Как не верны и оба других варианта.

Вопрос долгосрочного (тем более - вечного) хранения документов упирается в вопрос "что есть документ?" Это информация или этот некие материальный объект (например, глиняная табличка)? Пока мы не определимся с этим вопросом, мы никогда не решим проблему долгосрочного хранения документов.

Для меня очевидно, что документ - это именно информация. А раз так, что совершенно неважно в каком формате документ будем представлен. Главное, что информация была адекватной и истинной.

10.01.2014 00:35:54

Ну "решать проблемы по мере их появления" это не ахти какое открытие smile:). Конечно это сильно упрощено, там методология целая вокруг этого. И вобщем-то смысл примерно в том, о чем вы говорите. Т.е. давайте хранить информацию как она есть, максимально сохраняя в аутентичном виде, а со всеми возможными проблемами форматов, совместимости и т.д. будем разбираться потом smile:)

10.01.2014 00:44:52

"Не важно в каком формате информация представлена"? Может быть. А важно, чтобы ее можно было адекватно отобразить, скажем лет через 500? Думаю да. Иначе зачем ее вообще хранить?

10.01.2014 00:49:07

Еще раз повторю: нужно понять: что мы хотим хранить - информацию или какую-то глиняную табличку?

Конституции США - уже почти 250 лет. Что нужно стране -- ее содержание или бумага, которая хранит запах эпохи конца 18-го века?

10.01.2014 01:01:16

Что такое содержание любого файла? Набор байтов. Что вы будете делать с этим набором, если утратите информацию, как его интерпретировать? Даже для простого текстового файла, кроме набора байт надо знать еще кодировку. Что говорить о файлах с форматированием, видео/аудио и т.д.

10.01.2014 10:38:46

А почему информацию нужно утрачивать?

Тут все как раз очень просто: информация (содержание) должно трансформироваться в вид, который будет "понимаем" в будущем.

В этой идее нет ничего нового - если посмотреть на историю, то вы увидите, что так оно было всегда.

Возьмите любой документ 1000 давности. Вы разве сегодня читаете то, что было написано именно тогда, 1000 лет назад?

Вы что сегодня читаете в подлиннике "Законник" созданный Иваном III в 15-м веке? Нет, конечно. Вы его в принципе не прочитаете, поскольку он написан на языке, который вы не знаете.

Давайте приведу другой пример. Скажем фильм "Чапаев". Вы думаете сегодня сохранилась пленка (и ее можно посмотреть), на которой фильм был снят 80 лет назад? Но фильм-то вы можете смотреть. И это - тот самым фильм!

А как до вас дошли записи Шаляпина? На грампластинках начала 20-го века?

10.01.2014 11:14:32

Так Вадим об этом и пишет, только он говорит об электронных файлах (не буду писать о документах, записях, чтобы не дразнить гусей).
За 50 лет поддержки Государственного фонда данных по гидрометеорологии и контролю природной среды мы провели миграцию данных с бумажных носителей на перфокарты (500 млн перфокарт), с перфокарт на магнитные ленты ЭВМ второго поколения (50 тыс. лент), с магнитных лент - на магнитные картриджи. Сохраняем бумажные носители, еще храним магнитные ленты. Конечно, в основном, это структурированная информация.

10.01.2014 11:24:19

ВОзможно, я не очень понял Вадима, но он писал о других вариантах. Он писал о создании инструментов под одни и те же файлы. А вы говорите (совершенно верно!!!) о том, чтобы постоянно преобразовывать файлы под новые инструменты.

Другое дело, что такие предобразования форматов и самим носителей нужно делать так, чтобы сохранить в исходном виде само содержание!

10.01.2014 11:21:49

Все бы ничего, но вот что делать, если этот файл, который хранится в архиве, был подписан электронной подписью?
Тогда уже так просто его не сконвертировать в новый формат.

В этом случае придется по принципу emulation действовать.
Причем окружение не только для самого файла, но и для самих средств проверки электронной подписи придется сохранять.

10.01.2014 11:37:11

Дмитрий, совершенно верное замечание! Я это упустил. Это еще одна проблема миграции, как подтверждать аутентичность данных, если она была подтверждена средствами типа электронной подписи (хешами и т.д.) В общем случае никак. Одни это рассматривают как довод против миграции, другие как довод против использования ЭП, хешей и т.д. для подтверждения аутентичности данных.

10.01.2014 11:46:51

А тут все как раз очень просто: ЭПЦ не имеет ни какого отношения к долгосрочному хранению документов. Это уже известно всем в мире, кроме как в России.

ЭПЦ используется только для обеспечения подлинности оперативных документов, а не архивных.

Просто мы живем еще устаревшими понятиями, неверность которых весь мир понял уже давно.

Сначала мы загоняли (и загоняем) себя в тупик, привязывая документ к конкретному материальному носителю. Теперь точно также загоняем себя в тупик совершенно неверными представлениями о назначении ЭЦП.

10.01.2014 11:52:23

Андрей, насчет всего мира не знаю. CAdES-A, предназначенную специально для архивного хранения, не в России придумали. А архивы Германии (вроде бы) активно технологии, связанные с деревом хешей применяют. Это тоже проблемы вызовет при миграции, любые хеши, как и ЭП привязаны к точному битовому представлению документа.

10.01.2014 12:31:55

Я написал, конечно, несколько утрированно. Тема долгосрочного хранения находится в стадии развития. Нет еще общепризнанных методов. Но понимание того, что ЭПЦ не для архивного хранения - это уже понятно

10.01.2014 12:32:59

Вот например, решили мы хранить личные дела сотрудников (которые положено хранить вроде бы 75 лет) в электронном виде.
И потом когда человек вышел на пенсию и просит предоставить ему какие-то льготы (на основании сведений из его личного дела), то почему бы не проверить аутентичность этого документа с помощью электронной подписи?
Ведь если этот документ хранится в бумажном виде, то подпись и печать организации обязательно должны быть!
Почему же в случае, если дело в электронном виде, у него должно быть эквивалента подписи и печати, т.е. электронной подписи?

10.01.2014 13:21:41

Цитата
А тут все как раз очень просто: ЭПЦ не имеет ни какого отношения к долгосрочному хранению документов. Это уже известно всем в мире, кроме как в России

Наверняка вы можете это подтвердить какими-нибудь пруфлинками...

10.01.2014 22:19:28

Все это довольно странно. Мы самими себя не во что не ставим. Не можем полагаться на собственный разум, логику, доказательства. Единственный способ доказательств - пруфлинки...

Извините, но для доказательства теоремы Пифагора вам тоже нужны линки? Или все же достаточно вернуться в шестой (или седьмой?) класс школы и доказать правильность теоремы самому?

Так вот, то, что ЭПЦ не годится для долгосрочного хранения документов, можно просто доказать строго научным образом. Не мнениями отдельных экспертов, а именно строгим доказательством.

11.01.2014 09:53:42

У Вас странная манера вести дискуссию, Андрей.
Сначала вы вбрасываете не подкрепленный никакими доказательствами (мнения экспертов я вполне расмматриваю как доказательство, если это мнение обосновано) тезис, а затем удивляетесь, что вам не верят на слово.

11.01.2014 11:34:15

Нет, я не удивляюсь, что не верят на слово. Я в комментарии написал другое: о существовании двух методов убеждения - ссылка на авторитетов и научно-логическое доказательство. И что то, что ЭЦП не нужна для архивного хранения -- это можно именно доказать.

Что касается манеры вести дискуссию. Я вполне допускаю, что делаю что-то не так. Но все же давайте поймем, что такое "дискуссия в блоге". Я считаю, что это - "разговор в курилке". Он тоже очень важен и полезен для участников. Но это - разговор в свободное от работы время с очень ограниченными ресурсами (по времени).

Вопрос о долгосрочном хранении документов, с одной стороны - очень-очень сложный, требующий очень серьезных усилий для решения. А с другой стороны - его реальная актуальность не очень понятна. Точнее мне лично его актуальность понятна -- она низкая.

Для данного разговора у меня есть только 2-3 минуты на комментария (работать нужно!). А для полного ответа на ваш вопрос мне нужно или пару часов, чтобы подобрать ссылки, или еще больше, чтобы представить доказательства. У меня нет столько времени, работать нужно...

Еще раз повторю: разговоры тут, в комментариях блога -- это "разговор в курилке". Полезно, интересно... Но только на это есть 3-5 минут в перерыве между работой.

10.01.2014 14:50:08

Автор писал: Вобщем на бытовом уровне эта проблема пока достаточно легко решается.

У меня есть файлы - тексты с формулами, набранные в своё время в ChiWriter-е. Возьмётесь за их преобразование, раз все так легко решаемо? smile:)

Первый вариант - миграция (migration). Суть его в том, что выбирается единый формат (форматы) архивного хранения документов.

Ошибка. Миграция (именно в данном понимании, следует помнить, что ИСО сейчас продвигает новую терминологию, где в этом значении используется термин «конверсия») – это процесс преобразования документов из устаревших систем и форматов в современные. Совершенно не обязательно преобразовывать документы в какие-то стандартные форматы (а во многих случая и невозможно – нет пока стандартных форматов для САПР-систем и т.п.). Использование стандартных форматов помогает реже проводить миграцию, и не более того.

Внося ограничения на допустимые форматы, мы тем самым ограничиваем типы информации, которую можно хранить.

Очень неразумные слова IMHO. Телега ставится впереди лошади.

В наше время повальной виртуализации нет никакой проблемы полностью сохранить все окружение, необходимое для правильного воспроизведения документа.

Проблем нет у тех, кто ни разу не пробовал. Вы сами разочек попробуйте – и узнаете smile:)

есть и третий подход…Если очень кратко, то суть его до гениальности проста - "надо решать проблемы по мере их появления"!

Этот конгениальный подход вылупился на свет божий тогда, когда после прихода к власти консерваторов Национальным Архивам Великобритании срезали финансирование, - да и к тому же они не имеют никаких полномочий предписывать что-либо государственным органам. Таким образом британские коллеги подвели «теоретическую базу» под свою нищету и беспомощность (замечу, что данный подход, о котором уже несколько лет рассказывается на международных конференциях, у представителей других стран, в т.ч. англосаксонских, восторга не вызвал).

Конечный результат будет вполне предсказуемым – большие массивы документов, не привлекающие сейчас повышенного внимания исследователей, будут утрачены. Электронные документы – это не бумага, их даже на 20 лет невозможно «забыть» на полке без риска всё потерять.

10.01.2014 15:01:49

Насчет старого формата, просто не очень интересно этим заниматься. Ну вот в свое время захотелось в старые досовские игры поиграть, без особых проблем. DosBox и вперед! Также ставил себе помниться Windows 1.1, просто посмотреть что за зверь. А сейчас такие вещи даже просто в браузере эмулируют. Так что не думаю что это такя уж проблема поработать с вашими старыми формулами, если заняться этим.

10.01.2014 15:16:36

Так что не думаю что это такая уж проблема поработать с вашими старыми формулами, если заняться этим.

Как говорится, "дьявол кроется в деталях". Нерешаемых "в принципе" проблем, как известно, нет, однако есть проблемы, которые не решаются просто в силу их объёмности и нехватки времени и ресурсов. И никто не будет вкладывать средства в сохранение электронных документов непонятной ценности (а Вы, несомненно, знаете, что государство не особо раскошеливается и на сохранение заведомо достаточно ценных документов).

Пример: на "бытовом уровне" утрачены и продолжают утрачиваться видеозаписи на аналоговых лентах - и совсем не потому, что нет способов перекодирования. Большинство из них никакой ценности, конечно, не представляет, однако где-то 1-5% из их числа - это ценнейшие материалы, отражающие нашу историю 1990-х годов.

10.01.2014 15:04:07

Миграция согласен, упростил, но я же не научную статью писал, чтобы все расписывать, а вы не тот отрывок из контекста выдернули. Вот этот надо было: "При этом, все уже хранящиеся документы необходимо будет преобразовать (мигрировать) к новому формату." А "конверсия" ли это или "горшок". А какая разница? По мне все эти термины кривые smile:) Ну кроме эмуляции. Она как раз в точку.

10.01.2014 15:09:29

Цитата
Очень неразумные слова IMHO. Телега ставится впереди лошади.


Помоему все логично. Есть у вас информация, например сайт. И есть требование, все хранить только в PDF-A. Вот вам ограничили виды информации, не сможете вы сайт в этом формате сохранить без потери информации. Что неразумно? Где телега и кто лошадь?

10.01.2014 15:20:41

Есть информация, которую Вы обязаны сохранять в силу требований закона и собственных деловых интересов, вне зависимости от того, что Вам порекомендовал Росархив или кто-либо ещё. Какое-то дурацкое требование - тем более, если оно не имеет силы закона - не освобождает Вас от обязанности сохранить эту информацию (по крайней мере, сделать для этого всё возможное) - и от ответственности за её несохранение.

10.01.2014 15:11:33

Цитата
Вы сами разочек попробуйте – и узнаете


Я сам постоянно пробую. Дома только 5 виртуалок разных, и всеми время от времени пользуюсь. А что я должен узнать?

10.01.2014 15:23:18

Наверное, то, что далеко не все старые программы нормально работают в виртуальной среде. Возможно, Вам везло и Вы с этим не сталкивались. У меня такие проблемы были.

Задумайтесь. Вадим - почему эмуляция так и не стала общепринятым способом сохранения электронных документов, раз всё так розово и в шоколаде?

10.01.2014 15:27:37

А я не говорил что там все розово smile:) Там тоже свои вопросы есть. Но не думаю, что проблема запуска какого-то конкретного ПО в виртуальной среде где-то есть в числе основных проблем. Думаю все-таки тут проблема в сложности сопровождения всего этого хозяйства, огромных ресурсов, требующихся для запуска кучи разнородных виртуалок. Ну и то, о чем я написал. Виртуалки это тоже всего-лишь файлы и ПО. Т.е. мы от проблемы форматов то не избавляемся, просто подымаем ее на уровень выше. Виртуалки тоже будут устаревать, и со временем придется запускать виртуалки на виртуалках smile:)

10.01.2014 19:29:03

Цитата

почему эмуляция так и не стала общепринятым способом сохранения электронных документов, раз всё так розово и в шоколаде?


Наверное потому, что мало кому еще приходилось хранить электронные документы достаточно долго, чтобы успели поменяться стандарты, форматы документов, программы для их чтения и операционные системы, где эти программы могли бы работать

10.01.2014 21:02:45

По-вашему, 50 лет - это недостаточно долго? smile:)

11.01.2014 01:02:27

Наталья, конечно 50 лет это ерунда! И 100 лет это не совсем еще долго. Вот когда это будет 500 лет, 800 лет, когда квантовый компьютер станет всего-лишь детской игрушкой, вот тогда и поговорим smile:)

10.01.2014 15:13:40

Цитата
у представителей других стран, в т.ч. англосаксонских, восторга не вызвал

Ну Вы за всех представителей других стран не говорите smile:) У меня например вызвал. Очень разумный документ.

10.01.2014 15:29:04

Будет интересно, если Вы попробуете такой подход в своей деятельности - а мы посмотрим и оценим результаты. Кто знает - может быть, я действительно ошибаюсь, и английский подход - это действительно научная находка, а не попытка сделать хорошую мину при плохой игре?

До сих пор, однако, наблюдалась следующая картина: если не принимаются меры, направленные на то, чтобы проблемы с электронными документами не возникали (или хотя бы не обострялись), то "разгребать" эти проблемы по мере их появления (читай - когда дальше их решение откладывать невозможно) обходится гораздо дороже...

10.01.2014 15:35:57

Ну там же не совсем "гори оно все". Там какие-то меры все-таки предполагаются по сохранению аутентичности документов и т.д.

10.01.2014 21:58:51

А в чем суть проблемы? Найти наиболее удачный вариант для всех документов, которые представляют важность, историческую ценность и подлежат долгосрочному хранению? Или рассмотреть наиболее удачные из всех возможных? Понятно, что один для абсолютного большинства не приемлем, потому как правильно заметил автор, все документы абсолютно разные. Однако в настоящее время ни у кого не вызывает сомнений, что оцифровка форматов на сегодня чуть ли не единственный возможный и приемлемый по средствам вариант.

Осенью была в РГАНТД (архив научно-технической документации), где цифруют, в том числе, аудио-информацию с дорогостоящей и имеющий ограниченный срок использования пленки. Конечно можно перезаписать на новую пленку, но не сотни же записей? И как при этом обеспечить доступ? Где со временем брать технику для прослушивания?
Недавно туда поступил на хранение первый документ в 3D формате. На дисках, в последствии вероятно, на серверах. И будет храниться положенное время, как и другие оцифрованные документы.

Конечно, в архиве важно сохранить не только документ как таковой, но и обеспечить фонд пользования. Но разве перед организацией не стоят те же задачи - сохранить и иметь возможность быстрого доступа? Перезаписав или переконвертировав информацию архив уже исходит из того, что перед ними не подделка, а реальный оригинал документа. И даже если бы на нем была ЭП. И почему всякий раз надо ориентироваться на нее, как на единственный атрибут, подтверждающий подлинность документа, мне не понятно.

В общем, вопрос как хранить большую часть документов (ну, может быть за исключением анимации и иных новых видов материалов) на сегодня решаем. Вопрос в большей степени стоит о разработке методологии. Может быть не единой для всех, но для большинства документов, подлежащих долгосрочному хранению точно.

11.01.2014 01:10:12

Да, вопрос именно методологии. На практическом уровне конечно, проблем нет пока. Попытка заглянуть в будущее smile:) Хотя вот англичане считают что и не надо провидцев из себя строить.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии