НовостиОбзорыСобытияIT@WorkРеклама
Государство и ИТ:

Блог

Почему госданные должны быть в свободных машиночитаемых форматах

Недавно, после одного заявления в соцсети Сергей Голубева о том, что у него только одна претензия к закону (не будем уточнять, какому :-)) — что он выложен в формате doc, очередной раз встал вопрос о том, почему государство должно публиковать свои данные исключительно в свободных и машиночитаемых форматах. А не в doc, как сейчас и тем более не в сканах в PDF/TIFF.

На самом деле этот вопрос состоит их двух — собственно, почему в свободных и, собственно, почему в машиночитаемых.[spoiler]

Разберём первый вопрос.

Почему данные должны быть в свободных форматах, человеку, который пользуется хоть каким-нибудь офисным пакетом, в принципе, почти очевидно. Представьте себе элементарную ситуацию, когда один и тот же документ на разных компьютерах отображается по-разному. Такое бывает. Теперь представьте, что текст закона на одном компьютере отображается в одном виде, а на другом компьютере — в другом.

Тут надо понимать, что использование открытых форматов не является гарантией того, что документы откроются правильно в разных программах. Но, открытый формат документа позволяет сослаться на описание формата, чтобы показать, какая из двух программ неправильно работает с форматом — или он неправильно записан, или он неправильно прочитан. А с проприетарным форматом такой анализ будет сильно затруднён. Более того, открытый формат позволяет ссылаться на него как на стандарт в нормативных документах.

Вторая проблема, связанная с закрытым форматом, связана с тем, что пользователи прекрасно понимают, что закрытый формат правильно открывает только закрытая программа. И государство, используя закрытые форматы, пропагандирует среди пользователей использование только определённых программ. Что само по себе плохо по определению.

Третья проблема — проблема отдалённой перспективы, когда закрытая программа уже прекратит своё существование, а данные-то останутся. Каких-то 20 лет назад в ходу были редакторы news и электронные таблицы Supercalc. Что будет через 20 лет с государственными данными, которые выкладываются сейчас?

Теперь что касается второго вопроса — почему государственные данные должны быть человекочитаемые.

Тут всё не так очевидно. Казалось бы, государство выкладывает данные для людей, а не для машин, все эти законы, нормативные документы, данные статистики — они обрабатываются людьми. И кому какое дело, можно это всё перевести в машинно-читаемый вид, или там сканы, которые человек прекрасно читает, да ещё они на любом компьютере отображаются одинаково?

Тем не менее, существует множество сценариев использования государственных данных, предполагающих изменение их формы представления, не затрагивая содержание. Примеры: Подготовка данных в виде представления для слепых. Просмотр информации с мобильного телефона, куда скан не влезает размерами. Копирование текстов законов и прочих документов с целью их каталогизации и дальнейшего распространения. Поиск необходимых текстов законов по ключевым словам. Обработка сырых статистических данных. Даже простое преобразование форматов для внедрения текста куда-нибудь уже потребует, чтобы исходные данные были бы машиночитаемые. Ну вот хочу я сделать, скажем, стенгазету на производстве и положить туда цитату из какого-нибудь закона или инструкции или другого подобного документа — и мне надо иметь возможность выдрать текст из оформления.

Кстати, по причинам, изложенным в предыдущем абзаце, я считаю неудачным для законов не только формат doc, но и форматы odt или pdf — по той причине, что голый текст из них выковыривать из оформления бывает не так уж и просто. Идеальным вариантом было бы выкладывать в нескольких форматах, благо технические возможности позволяют конвертировать исходный машиночитаемый текст на лету при выгрузке на сайт.

Но, честно говоря, я не вижу заинтересованного лица или ведомства, которое бы такого добилось.
Сергей Бессонов
Согласен, что терминология нечёткая. Буду исправляться :-)

Но форматы всё равно должны быть свободными, как при публикации текстов, так при публикации статистических или геоданных.
Сергей Бессонов
ну и какие проблемы?

NASA тут недавно жаловалась, что не может прочитать данные, необходимые для навигации своих шаттлов. Причём не только из-за бинарного формата, но и из-за отсутствия аппаратных средств :-)

По российскому законодательству, в архиве должна храниться информация за 70 лет. А в начале 90-х годов бухгалтерию могли вести в Supercalc. Чем сегодня открыть лист Supercalc?

Я согласен с тем, что технически обе задачи — и NASA и Supercalc — разрешимы. Но зачем создавать себе проблему.

Условно проблема не в прочтении букв, а в понимании ситуации, контекста - для чего создавался документ.

Это вообще отдельная история. Тут могу сказать, что нельзя сразу с лошади пересесть на самолёт, надо пройти все стадии. Сначала — просто публикация, хоть в чём-нибудь. Потом стандартизация, взаимодействие. Потом, может быть, и до окружения дойдём :-)
Владислав Чинючин
Ну, если у нас "всё для людей", то графическая информация не должна быть критически важной для понимания документа и нести информацию, не продублированную текстом. Потому что есть люди, лишенные возможности лицезреть что либо, включая графику.