На самом деле этот вопрос состоит их двух — собственно, почему в свободных и, собственно, почему в машиночитаемых.[spoiler]
Разберём первый вопрос.
Почему данные должны быть в свободных форматах, человеку, который пользуется хоть каким-нибудь офисным пакетом, в принципе, почти очевидно. Представьте себе элементарную ситуацию, когда один и тот же документ на разных компьютерах отображается по-разному. Такое бывает. Теперь представьте, что текст закона на одном компьютере отображается в одном виде, а на другом компьютере — в другом.
Тут надо понимать, что использование открытых форматов не является гарантией того, что документы откроются правильно в разных программах. Но, открытый формат документа позволяет сослаться на описание формата, чтобы показать, какая из двух программ неправильно работает с форматом — или он неправильно записан, или он неправильно прочитан. А с проприетарным форматом такой анализ будет сильно затруднён. Более того, открытый формат позволяет ссылаться на него как на стандарт в нормативных документах.
Вторая проблема, связанная с закрытым форматом, связана с тем, что пользователи прекрасно понимают, что закрытый формат правильно открывает только закрытая программа. И государство, используя закрытые форматы, пропагандирует среди пользователей использование только определённых программ. Что само по себе плохо по определению.
Третья проблема — проблема отдалённой перспективы, когда закрытая программа уже прекратит своё существование, а данные-то останутся. Каких-то 20 лет назад в ходу были редакторы news и электронные таблицы Supercalc. Что будет через 20 лет с государственными данными, которые выкладываются сейчас?
Теперь что касается второго вопроса — почему государственные данные должны быть человекочитаемые.
Тут всё не так очевидно. Казалось бы, государство выкладывает данные для людей, а не для машин, все эти законы, нормативные документы, данные статистики — они обрабатываются людьми. И кому какое дело, можно это всё перевести в машинно-читаемый вид, или там сканы, которые человек прекрасно читает, да ещё они на любом компьютере отображаются одинаково?
Тем не менее, существует множество сценариев использования государственных данных, предполагающих изменение их формы представления, не затрагивая содержание. Примеры: Подготовка данных в виде представления для слепых. Просмотр информации с мобильного телефона, куда скан не влезает размерами. Копирование текстов законов и прочих документов с целью их каталогизации и дальнейшего распространения. Поиск необходимых текстов законов по ключевым словам. Обработка сырых статистических данных. Даже простое преобразование форматов для внедрения текста куда-нибудь уже потребует, чтобы исходные данные были бы машиночитаемые. Ну вот хочу я сделать, скажем, стенгазету на производстве и положить туда цитату из какого-нибудь закона или инструкции или другого подобного документа — и мне надо иметь возможность выдрать текст из оформления.
Кстати, по причинам, изложенным в предыдущем абзаце, я считаю неудачным для законов не только формат doc, но и форматы odt или pdf — по той причине, что голый текст из них выковыривать из оформления бывает не так уж и просто. Идеальным вариантом было бы выкладывать в нескольких форматах, благо технические возможности позволяют конвертировать исходный машиночитаемый текст на лету при выгрузке на сайт.
Но, честно говоря, я не вижу заинтересованного лица или ведомства, которое бы такого добилось.
Но форматы всё равно должны быть свободными, как при публикации текстов, так при публикации статистических или геоданных.
NASA тут недавно жаловалась, что не может прочитать данные, необходимые для навигации своих шаттлов. Причём не только из-за бинарного формата, но и из-за отсутствия аппаратных средств
По российскому законодательству, в архиве должна храниться информация за 70 лет. А в начале 90-х годов бухгалтерию могли вести в Supercalc. Чем сегодня открыть лист Supercalc?
Я согласен с тем, что технически обе задачи — и NASA и Supercalc — разрешимы. Но зачем создавать себе проблему.
Это вообще отдельная история. Тут могу сказать, что нельзя сразу с лошади пересесть на самолёт, надо пройти все стадии. Сначала — просто публикация, хоть в чём-нибудь. Потом стандартизация, взаимодействие. Потом, может быть, и до окружения дойдём