НовостиСобытияКонференцииФорумыIT@Work
Государство и ИТ:

Блог

Почему госданные должны быть в свободных машиночитаемых форматах

Сергей Бессонов
12.07.2016 14:26:28

Недавно, после одного заявления в соцсети Сергей Голубева о том, что у него только одна претензия к закону (не будем уточнять, какому smile:-)) — что он выложен в формате doc, очередной раз встал вопрос о том, почему государство должно публиковать свои данные исключительно в свободных и машиночитаемых форматах. А не в doc, как сейчас и тем более не в сканах в PDF/TIFF.

На самом деле этот вопрос состоит их двух — собственно, почему в свободных и, собственно, почему в машиночитаемых.

Разберём первый вопрос.

Почему данные должны быть в свободных форматах, человеку, который пользуется хоть каким-нибудь офисным пакетом, в принципе, почти очевидно. Представьте себе элементарную ситуацию, когда один и тот же документ на разных компьютерах отображается по-разному. Такое бывает. Теперь представьте, что текст закона на одном компьютере отображается в одном виде, а на другом компьютере — в другом.

Тут надо понимать, что использование открытых форматов не является гарантией того, что документы откроются правильно в разных программах. Но, открытый формат документа позволяет сослаться на описание формата, чтобы показать, какая из двух программ неправильно работает с форматом — или он неправильно записан, или он неправильно прочитан. А с проприетарным форматом такой анализ будет сильно затруднён. Более того, открытый формат позволяет ссылаться на него как на стандарт в нормативных документах.

Вторая проблема, связанная с закрытым форматом, связана с тем, что пользователи прекрасно понимают, что закрытый формат правильно открывает только закрытая программа. И государство, используя закрытые форматы, пропагандирует среди пользователей использование только определённых программ. Что само по себе плохо по определению.

Третья проблема — проблема отдалённой перспективы, когда закрытая программа уже прекратит своё существование, а данные-то останутся. Каких-то 20 лет назад в ходу были редакторы news и электронные таблицы Supercalc. Что будет через 20 лет с государственными данными, которые выкладываются сейчас?

Теперь что касается второго вопроса — почему государственные данные должны быть человекочитаемые.

Тут всё не так очевидно. Казалось бы, государство выкладывает данные для людей, а не для машин, все эти законы, нормативные документы, данные статистики — они обрабатываются людьми. И кому какое дело, можно это всё перевести в машинно-читаемый вид, или там сканы, которые человек прекрасно читает, да ещё они на любом компьютере отображаются одинаково?

Тем не менее, существует множество сценариев использования государственных данных, предполагающих изменение их формы представления, не затрагивая содержание. Примеры: Подготовка данных в виде представления для слепых. Просмотр информации с мобильного телефона, куда скан не влезает размерами. Копирование текстов законов и прочих документов с целью их каталогизации и дальнейшего распространения. Поиск необходимых текстов законов по ключевым словам. Обработка сырых статистических данных. Даже простое преобразование форматов для внедрения текста куда-нибудь уже потребует, чтобы исходные данные были бы машиночитаемые. Ну вот хочу я сделать, скажем, стенгазету на производстве и положить туда цитату из какого-нибудь закона или инструкции или другого подобного документа — и мне надо иметь возможность выдрать текст из оформления.

Кстати, по причинам, изложенным в предыдущем абзаце, я считаю неудачным для законов не только формат doc, но и форматы odt или pdf — по той причине, что голый текст из них выковыривать из оформления бывает не так уж и просто. Идеальным вариантом было бы выкладывать в нескольких форматах, благо технические возможности позволяют конвертировать исходный машиночитаемый текст на лету при выгрузке на сайт.

Но, честно говоря, я не вижу заинтересованного лица или ведомства, которое бы такого добилось.

Комментариев: 15

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

12.07.2016 16:34:57

На мой взгляд, документы должны публиковаться в виде обычного юникодного текста. И дополнительно в чём угодно, хоть в DOC, хоть в ODT.

13.07.2016 18:29:22

Призадумался. Какой формат всё же должен считаться основным? Да, дополнительных может быть неколько. Основной, по идее, должен содержать полную информацию документа. Может ли государственный документ содержать табличные данные? А графические? Если да, тогда обычный юникодный текст не может претендовать на роль основного формата. Разве что дополнительного, что тянет за собой необязательность. Не получается.

17.07.2016 17:30:02

Ну, если у нас "всё для людей", то графическая информация не должна быть критически важной для понимания документа и нести информацию, не продублированную текстом. Потому что есть люди, лишенные возможности лицезреть что либо, включая графику.

12.07.2016 16:45:59

Что-то, как мне видится, вы тут все перепутали в один клубок.

Вы, кажется, перепутали два вопроса - открытая информация (открытое правительство) и открытые данные.
Посмотрите: http://www.pcweek.ru/gover/article/detail.php?ID=158850

Открытые данные - это давно устоявшийся международный термин. Это данные, предназначенные для машинной, автоматической обработки, выложенные в открытый доступ.
Его говорить о госданных, то тут в первую очередь речь идет о геоданных, сбор и формирование которых - одна из задач именно государства.

Форматы DOC и ОDF - это не "данные" (машино-читаемые), это - "информация" (человекочитаемая)

Цитата
Но, честно говоря, я не вижу заинтересованного лица или ведомства, которое бы такого добилось.

Я тоже не вижу, хотя у нас уже четыре года есть Министр по открытому правительству, который должен заниматься как раз этим.

В общем, прежде чем говорить о свободных или других форматах, нужно, чтобы открытая информация (и данные) была.
Госданные должны быть для начала открытыми (чего нет), а уж потом говорить о форматах.

13.07.2016 18:03:44

Цитата
тут все перепутали в один клубок

Вроде, нет. Нормальный комплексный подход к рассмотрению вопроса.

13.07.2016 18:08:05

Я в своем посте объяснил в чем заключается "клубок".

13.07.2016 22:58:52

Согласен, что терминология нечёткая. Буду исправляться smile:-)

Но форматы всё равно должны быть свободными, как при публикации текстов, так при публикации статистических или геоданных.

13.07.2016 10:51:19

Открытые данные должны представляться минимум в трех форматах CSV (для использования в других системах, данные через разделитель усваиваются в любой СУБД), Pdf (для человека) и Excel (для небольшой обработки).

13.07.2016 17:59:55

Цитата
и Excel

И сходу вопрос - почему именно Excel? По какой причине мы должны считать этот формат открытым?

13.07.2016 20:38:06

Excel - для локальной обработки данных, CSV - для обмена данными между приложениями (можно, конечно, и XML, но уж очень большой объем данных получается).

13.07.2016 13:03:45

Этому обсуждению уже более десяти лет. Форматы, вопросы, примеры, не просто похожи, а идентичны. Это говорит за то, что не там копаем!
Первые стандарты электронных форматов появились вместе с телеграфом, потом новые вместе с первыми компьютерами, т.е. прошло уже несколько раз по 20 лет (которыми пугает автор), ну и какие проблемы? Свои старые файлы я могу прочитать, а больше они не кому не нужны.
Стандарты электронных форматов хранения (передачи) данных определяют требования к электронному отображению знаков, символов. Этим стандартам совершенно начихать на слова, содержание и контекст хранимых данных. Условно проблема не в прочтении букв, а в понимании ситуации, контекста - для чего создавался документ. Т.е. чтобы понять содержание документа нужно чтобы в нем были представлены сведения об окружении документа, текущем состоянии, целях, методах и прочее для решения задач, поставленных в документе. До такого понимания мы пока не дожили.
Если кто-то создает свою БД нормативных документов - это не дешево. Лучше подписаться у специалистов.

13.07.2016 20:48:05

Об автоматическом обмене данными между приложениями стали говорить мах 10 последних лет. А реально такой обмен пока происходит редко. И связано это с тем, что нет договоренности по форматам обмена данными. Обмен "каждый с каждым" требует согласования огромного многообразия структур данных (это происходит в госуслугах). А если использовать универсальные форматы описания структур данных (XML, плоские форматы с описанием атрибутов или международные форматы типа NetCdf и др.), то легко можно автоматизировать представление данных в необходимой структуре для любого приложения.

13.07.2016 23:02:20

Цитата
ну и какие проблемы?


NASA тут недавно жаловалась, что не может прочитать данные, необходимые для навигации своих шаттлов. Причём не только из-за бинарного формата, но и из-за отсутствия аппаратных средств smile:-)

По российскому законодательству, в архиве должна храниться информация за 70 лет. А в начале 90-х годов бухгалтерию могли вести в Supercalc. Чем сегодня открыть лист Supercalc?

Я согласен с тем, что технически обе задачи — и NASA и Supercalc — разрешимы. Но зачем создавать себе проблему.

Цитата
Условно проблема не в прочтении букв, а в понимании ситуации, контекста - для чего создавался документ.


Это вообще отдельная история. Тут могу сказать, что нельзя сразу с лошади пересесть на самолёт, надо пройти все стадии. Сначала — просто публикация, хоть в чём-нибудь. Потом стандартизация, взаимодействие. Потом, может быть, и до окружения дойдём smile:-)

13.07.2016 22:08:32

Цитата
не вижу заинтересованного лица или ведомства, которое бы такого добилось

Это так. С темой и содержанием поста согласен полностью. На самом деле, готовая фабула для законопроекта. Депутаты, ау!

13.07.2016 22:32:39

Евгений говорит про 10 последних лет, а я вот недавно прочитал: "Машины серии "5Э" объединялись каналами "межмашобмена" в локальные сети, которые в первой половине 70-х годов составляли многопроцессорную вычислительную среду, как основу систем контроля космического пространства и управления космическими объектами." Чем обеспечивалось такое? Методология разработки системы была единая. Разработчикам что-то сделать не так было можно, но очень трудно из-за единой методологии, единого контроля и единого главного конструктора системы. Т.е. система была жесткая.
В наше время такие системы не проходят, например, в гос услугах. Что интересно методология моделирования объекта автоматизации, как и в выше приведенном примере, практически одна - моделирование процессов. В чем разница.
Первое - это размерность, количество участников взаимодействия - разница не несколько порядков. Второе - количество главных конструкторов и главное Аналитиков-проектировщиков процессов подсчету не поддается - текучка, смена исполнителей и прочее.
Но, это не главное, главное в другом - в моделировании процессов в автоматизированной системе через последовательность действий. Кто-нибудь может представить себе, что два аналитика построят для одного процесса одну модель действий. Такого ни разу не видел! Поэтому у нас на тысячу услуг десять тысяч регламентов. Во работа - бесконечная. Кто-то ведь сказал - разделяй и властвуй.
И что делать? Методологию надо менять.
Моделирование действиями - это небольшая, понятная со всех сторон модель, лучше без людей и не имеющая автоматических связей система.
Нормальные системы должны моделироваться результатами. Модель результатов для госуслуг можно сделать одну на всю страну. Я уже об этом писал ранее, повторяться не буду.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии