НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Хранить вечно

Мы много слышим о больших данных, которых становится все больше. И много пишем  – о том, насколько они велики и как трудно их хранить, а тем более – обрабатывать и анализировать в различных срезах, особенно - в режиме онлайн. И что нужны новые технологии и программные продукты. Все уже уяснили – объемы велики, новые подходы и технологии необходимы. Хотелось бы поговорить о качестве данных, точнее – формате их хранения и перспективах прочтения или распознавания, скажем, лет через 30.

Позавчера на Технологическом Форуме Hitachi 2012 лектор Боб Пламридж поднял в числе прочего эту интересную тему. Он насчитал на сегодня аж 2500 утерянных форматов, т.е. как я понимаю, 2500 программных приложений закончили свой жизненный цикл.  И ценность данных, хранившихся в почивших форматах, стала нулевой. Стало интересно – как решается проблема весьма вероятной (2500!) безвозвратной утраты форматов данных различными разработчиками СХД? Стоит ли она в списке актуальных и злободневных на повестке дня у разработчиков ПО? Какова вероятность, что все эти дикие объемы данных, накапливаемые сегодня в самых различных областях бизнеса и государства, в обозримой перспективе потеряют ценность, превратившись в электронный мусор – просто потому что их  нельзя будет прочесть?

По идее проблема актуальная, ведь тот же лектор Пламридж поведал о том,
что например, одно из новых требований системы здравоохранения Великобритании –
хранить электронную медицинскую карточку чуть ли не вечно…
Да дело в общем-то и не в частных требованиях английского законодательства -
думается, что проблема-то глобальная...
Алексей Воронин
а еще тот же лектор говорил о некоем объективном формате данных, не зависящем от приложений, в котором и следует хранить все данные во избежание в будущем казусов... жалко, что я не спросил, что под этим подразумевается...
Александр Сапожников
Действительно, было бы интересно уточнить. Чаще всего, имеется в виду печать в PDF. Это для неструктурированного контента (файлы в форматах приложений). Для БД используются reports в плоские текстовые файлы, см. Computer Output to Laser Disc
Алексей Воронин
спасибо:)