НовостиСобытияКонференцииФорумыIT@Work
Идеи и практики автоматизации:

Блог

Хранить вечно

Алексей Воронин
06.12.2012 21:38:46

Мы много слышим о больших данных, которых становится все больше. И много пишем – о том, насколько они велики и как трудно их хранить, а тем более – обрабатывать и анализировать в различных срезах, особенно - в режиме онлайн. И что нужны новые технологии и программные продукты. Все уже уяснили – объемы велики, новые подходы и технологии необходимы. Хотелось бы поговорить о качестве данных, точнее – формате их хранения и перспективах прочтения или распознавания, скажем, лет через 30.

Позавчера на Технологическом Форуме Hitachi 2012 лектор Боб Пламридж поднял в числе прочего эту интересную тему. Он насчитал на сегодня аж 2500 утерянных форматов, т.е. как я понимаю, 2500 программных приложений закончили свой жизненный цикл. И ценность данных, хранившихся в почивших форматах, стала нулевой. Стало интересно – как решается проблема весьма вероятной (2500!) безвозвратной утраты форматов данных различными разработчиками СХД? Стоит ли она в списке актуальных и злободневных на повестке дня у разработчиков ПО? Какова вероятность, что все эти дикие объемы данных, накапливаемые сегодня в самых различных областях бизнеса и государства, в обозримой перспективе потеряют ценность, превратившись в электронный мусор – просто потому что их нельзя будет прочесть?

По идее проблема актуальная, ведь тот же лектор Пламридж поведал о том,
что например, одно из новых требований системы здравоохранения Великобритании –
хранить электронную медицинскую карточку чуть ли не вечно…
Да дело в общем-то и не в частных требованиях английского законодательства -
думается, что проблема-то глобальная...

Комментариев: 6

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

07.12.2012 00:52:40

Написал комментарий в отдельном посте: http://www.pcweek.ru/ecm/blog/ecm/4023.php

09.12.2012 17:47:41

Цитата
И ценность данных, хранившихся в почивших форматах, стала нулевой.


Ценность данных могла стать нулевой безотносительно к формату. Если ценность стала нулевой - ну его, этот формат. Проблема, как раз, возникает тогда, когда данные обладают ценностью, а формат деактуализировался.

17.12.2012 11:13:17

ну, об этом случае и речь идет, Александр, - данные обладают ценностью, а формат "деактуализировался". понятное дело, что формат сам по себе как таковой безотносительно к данным мало кому интересен...

17.12.2012 11:14:17

а еще тот же лектор говорил о некоем объективном формате данных, не зависящем от приложений, в котором и следует хранить все данные во избежание в будущем казусов... жалко, что я не спросил, что под этим подразумевается...

17.12.2012 20:01:40

Действительно, было бы интересно уточнить. Чаще всего, имеется в виду печать в PDF. Это для неструктурированного контента (файлы в форматах приложений). Для БД используются reports в плоские текстовые файлы, см. Computer Output to Laser Disc

17.12.2012 20:34:55

спасибоsmile:)

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии