НовостиСобытияКонференцииФорумыIT@Work
Open Source:

Блог

О любви к формату DOC

Сергей Голубев
15.05.2013 10:16:46
Теги: СПО

В курсе базовой подготовки пользователя Rosa Linux, разработанном Центром компетенции СПО Красноярского государственного педагогического университета нашёл вот такую "агитку":

Цитата
Для государственных организаций, где срок хранения документов составляет 70-90 лет, существует реальная проблема формата электронного документа, ведь за это время любая коммерческая компания, даже такая крупная как Microsoft может свернуть свою деятельность, реструктуризироваться, потерять часть рынка, в конце концов - просто разориться, а производители компьютеров
перейдут на иную, более современную архитектуру. Такой пример можно привести с популярным (в свое время) текстовым редактором "Слово и Дело", который по популярности и функционалу далеко превосходил современные тогда аналогичные программы. Прошло "всего-то" 20 лет, а документы того типа сейчас лежат бесполезным набором цифр и букв: даже имея саму программу, запустить ее не получиться на процессорах выпуска после 1998г., поскольку производитель "Слово и Дело" исчез, исходных текстов ее нет, и естественно, переписать эту программу под современную архитектуру некому.


По иронии судьбы именно с этим свойством проприетарного ПО мне пришлось столкнуться буквально вчера.

История, кстати, вполне банальная. Дочь пишет дипломную работу и ей понадобилось изучить один документ, который она получила в формате DOC. И вот что из этого получилось.

Сперва она открыла документ в LibreOffice:



Потом в Диске Google:



Результат, как нетрудно заметить, налицо. И вывод напрашивается сам собой - подготовленный в MSOffice документ можно открыть только в самом MSOffice. Который, как справедливо заметили авторы курса, не вечен.

А пройдёт лет двадцать. И какому-нибудь студенту потребуется прочесть отчёт о исследовании, которое проводилось сегодня. Что ему прикажете делать?

Кстати, хочу заметить, что с TeX такой головной боли нет и быть не может.

Комментариев: 15

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

15.05.2013 15:34:45

А что, СПО от этого свойства свободно?
Вот, например, есть открытый стандарт документов (набор стандартов) с достаточно большой историей. К примеру, HTML/XHTML/XML+JavaScript/PHP/etc. Есть СПО программы для работы с документами этого вида.
Ну и как вы думаете, какова вероятность корректного открытия современного документа через 10+ лет?
Судя по тому, как сайты прекращают поддержку старых браузеров, про гарантированную корректность тут речи просто не идёт.
Да, специалисту будет проще разобрать документ по косточкам и добыть из него нужную информацию, но для простого пользователя ситуация, по моему, ни коим образом не будет отличаться что с СПО, что с ППО.

15.05.2013 16:01:13

По крайней мере, я не слышал, чтобы кто-то не смог открыть отчёт в TeX smile:).

15.05.2013 18:31:00

Глядя на количество диалектов TeX (слышал про математический, химический, и еще какие-то) и на количество вариантов движков (полдюжины наберется, если верить википедии) что-то не верится, что всё так радужно в долгосрочной перспективе.
Особенно после, например, такой цитаты из википедии из описания XeTeX:

Цитата
В отличие от polyglossia пакет babel автоматически не вызывает пакет fontspec, который де факто выполняет загрузку шрифтов, поэтому приведенный выше пример должен быть изменен, если используется пакет babel.

Неполная совместимость, однако smile:)

15.05.2013 19:20:49

А я и не говорю, что в СПО картина просто радужная и прекрасная. Но там хотя бы есть какое-то стремление к совместимости.
Хотя, да - стандарты на форматы должны быть предельно жёсткими.

18.05.2013 16:55:41

Вы сможете разобрать документ doc или xls или dwg, к примеру, по косточкам и получить всю информацию не используя проприетарные библиотеки? (особое ударение на слове всю).

18.05.2013 21:24:40

Лично я не могу. Кто-то может. И что? 95% пользователей компьютеров не способны, не используя различных программ/библиотек, получить всю информацию даже из TXT. Для них разве что-то меняется, будь там doc или odt?

18.05.2013 21:42:39

Вы знаете, в воинском уставе есть одно мудрое положение - прямой запрет говорить за других. Предлагаю перенести его на этот блог. Если у 95% пользователей чего-то не получается, то пусть они сами это скажут.

18.05.2013 21:58:49

Вас возмущает упомянутый процент, или сам факт утверждения, что подавляющее большинство не способно извлечь всю ("особое ударение на слове всю" (с) Вадим Усманов) информацию из TXT файла? Могу предложить эксперимент. Пара TXT файлов родом из прошлого века. Требуется из них извлечь информацию о том, как первый из них печатался, а второй выводился на экран. Файлы, естественно, не относятся к plain text, но всё равно вполне себе txt.

18.05.2013 22:48:53

Меня ничего не возмущает. Просто обсуждать проблемы других совершенно бессмысленно. Никакой пользы мы из этого не извлечём.

18.05.2013 22:21:19

Главная проблема в проблемах, подобных обсуждаемой, по моему, в том, что мы рассматриваем достаточно большие промежутки времени. Большие относительно скорости развития информационных технологий. За эти промежутки времени стандарты, какие бы они открытыми не были, или умирают, или сильно развиваются.
Например, ANSI ESC codes вполне себе открытый стандарт, однако просмотреть пользователю такой текстовый файл не так уж просто. Боюсь, на данный момент, ни один текстовый редактор пользователю ничего толкового не покажет.
Или, второй пример, стандарт HTML. Достаточно старый, что бы в нём появилось много устаревших, не рекомендуемых к использованию элементов. Уже сейчас реализация таких элементов начинает хромать, а что будет еще лет через 10-20-30, когда, предположим, распространятся какие-нибудь голографические мониторы и будут общеприняты отличные от сегодняшних принципы отображения информации?

18.05.2013 22:21:20

* удалено дублирующееся сообщение *

16.05.2013 21:07:20

http://msdn.microsoft.com/en-us/library/cc313153(v=office.12).aspx
До сих пор что-то правят...

16.05.2013 23:36:00

Что-то я сомневаюсь, что за указанные сроки 90-100 лет сохранится доступ к носителям информации.
20 лет назад в ходу были дискеты 5.25 дюймов например.
Лет 15 назад в моде были ZIP-драйвы.
Кроме того носители не вечны. CD-диск точно не сохранит информацию даже 50 лет, не говоря о 70 или 90 годах. Так что увы. Бумажные архивы - наше все.

21.05.2013 00:09:52

Магнитооптические диски - одни из самых надежных носителей.

21.05.2013 07:54:52

Выход простой. Не выкидывать старые компы.
Дело, Лексикон, Фотон успешно работали на Ес1840/41 - Искра1030. Чего б им сталось, если до них не добрались "мастера" что-то поразбирать smile:oops:
Выход второй. Поднять тот же МсДос на виртуалке или эмуляторе. Понятно, этот вариант интереснее, чем у кого-то организовывать филиал Политехнического музея.

проблема может состояться в организации с крайне низким отношением к документу обороту. по принципу как течет, так пусть и катится. тогда, в самый раз затягивать песенку про "кто нас обманул на этот раз".

nikita garichev
С бумажными, фильмотеками, тем более на болванках архивами свои проблемы.
Есть решения на лентах. Но как-то сомневаюсь, что сами Tape Libraries протянут больше их картриджей. Которые со временем просто не куда будет засунуть. Уже имеем пример Msl 2024 не признает DAT 72

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии