НовостиСобытияКонференцииФорумыIT@Work
Документооборот/ECM:

Блог

Какие форматы файлов лучше всего подходят для электронных документов

Андрей Колесов
19.08.2015 19:21:57

На публикацию статьи "К вопросу о выборе формата электронных документов" сегодня был получен комментарий, который затрагивает очень серьезный вопрос, который хотелось бы осудить подробнее:

Цитата
Евгений Вязилов:

Может быть не совсем в тему. Но у меня выявился такой баг при работе с MS офисом 2013. Подготовил файл, в котором была копия абзаца из Википедии. Случайно обратил внимание, что при печати этот абзац не печатался. Стал изучать подготовленный файл, этот абзац как-то странно подчеркнут, не отражаемо при печати. Попытки найти, что это означает, не увенчалась успехом. Решил просто перебить этот текст. Кстати OpenOffice вообще не показывает этот абзац.
Может быть это связано с конвертированием из HTML в Doc. В HTML есть возможности запретить копирование текста.

Этот пример говорит о том, что различные текстовые редакторы могут по-разному отражать и печатать текст. То есть выбор формата хранения документов требует более тщательного исследования. Получается, только ASCII файл содержит 100% гарантию подлинности по содержанию информации
.

Комментарий очень даже по теме. В нем описана очень типичная ситуация.

На самом деле, преимущества электронных документов базируются на том, что они – намного более сложная сущность, чем традиционные бумажные документы. Но чтобы эта более сложная сущность давала реальные преимущества, нужно использовать более сложные, более изощренные инструменты и технологии. Нужна много более сложная научная теория.

Что сложнее – телега с лошадью или современный автомобиль? Конечно же, автомобиль. Но только для его создания человечеству пришлось провести огромный комплекс научных исследований, создать качественно новые инструменты, технологии, материалы. И в результате получилась штука очень простая и удобная. Намного более эффективная. И намного более массовая.

Вот и для электронных документов: чтобы они полностью проявили свой потенциал, нужна качественно иная научная проработка, новые технологии, инструменты.
Инструменты и технологии у нас есть. А вот научно-методической проработки теории документов, которая должна лечь в основу нормативно-законодательных требований, у нас как не было, так и нет.

Мы к электронным документам до сих пор применяем "бумажную" теории, созданную несколько веков назад. С помощью, пилы, топора и молотка можно сделать телегу. А можно ли с их помощью сделать автомобиль?

Посмотрите на наши законы относительно электронных документов: все они сводятся к вопросу использования электронно-цифровой подписи. А разве документ состоит только из ЭЦП? Но какова цена документу, если никто не сможет понять его содержание? Или, что может быть еще хуже, понять неправильно…

Электронный документ не может существовать в отрыве от инструментов, с помощью которых человек работает с документом. Собственно, так было и в случае с бумагой, но там нужны были относительно простые инструменты (зрение, умение читать, знать язык, очки…). И в бумажные были проблемы с пониманием содержания документа – например, при переводе с одного языка на другой. Дайте перевести одну и ту же фразу с английского на русский десяти переводчикам, и вы, скорее, всего получите десять разных результатов. Какой же из них считать самым адекватным?

С электронными документами все происходит точно так же: идет перевод с машинного языка на человеческий. Где гарантии, что перевод сделан правильно?

А раз так, то вытекает один базовый вывод: нужно использовать наиболее простые внутренние форматы, с которыми смогут гарантированно работать самые простые инструменты. Нужны такие форматы, для которых алгоритм преобразования с машинного на человеческий был бы самым простым и самым контролируемым.

А раз так, то самыми надежными форматами для текстовых документов является TXT, а для графических – BMP (точная по-пиксельная копия).

А никакие не PDF, TIFF, XML…

Комментариев: 39

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии

20.08.2015 08:56:09

Конечно, TXT. Я давно говорю, что совмещать информацию и оформление в одном файле — плохая идея. И понятно, почему так получилось — для распечатывания на бумагу. Помнишь термин «умная печатная машинка»? Уверен, многие до сих пор воспринимают компьютер, как аксессуар к принтеру. А не наоборот.

20.08.2015 14:26:40

Цитата
Уверен, многие до сих пор воспринимают компьютер, как аксессуар к принтеру.

Я, Сергей, больше скажу. Только что был на совещании, где озвучили интересный факт. Отдел из 10 человек тратит в месяц 180 пачек бумаги. И я подозреваю, что это не предел.

20.08.2015 14:42:36

Думаю, тот же отдел, но без «электронного документооборота» тратил бы пачки две, не больше. Просто перед тем, как отнести черновик в машбюро люди думали бы, насколько это реально нужно. А с компьютером плодить бумагу — милое дело.

20.08.2015 14:46:40

Я думаю, что вы путаете использование компьютеров для производства бумажных документов и реальную работу с электронными документами.
Через меня лично проходит ОГРОМНОЕ число документов. Я уже много лет не трачу ни одного листа бумаги. У меня много лет вообще нет принтера.

21.08.2015 14:01:39

Этот отдел работает без "электронного документооборота". А на совещании одним из вопросов был "стоит переводить на безбумажную технологию или нет".

21.08.2015 14:43:48

Очень интересная история. Чем же закончилось совещание? И что последовало за ним?

21.08.2015 15:56:07

Да ничего. Первоначальный прикид показал, что выгоднее покупать бумагу. Но ИТшников все же попросили подготовить предложения по электронному документообороту.

21.08.2015 16:10:03

У нас пока не помогает. Внедрили электронное согласование договоров, но очень многие перед тем как поставить галочки или написать замечание печатают договор для прочтения. Спрашиваем: "Зачем?". Ответы самые разные. Но в основном: "Мне так привычнее". В итого количество бумаги конечно увеличивается. Уговоры не помогают. Придется применять другие меры. Видимо придется заблокировать кнопку "Печать". Но это опять таки не всегда правильно. Жизнь она намного богаче того, что запрограммировано. И твердые копии иногда бывают нужны.

20.08.2015 11:28:17

Несколько неожиданный вариант. Но, немного поразмыслив - целиком поддерживаю эту идею. Сейчас даже при конвертации или передаче данных в другие программы всё чаще приходим к решениям в текстовых вариантах.
Осталось только договориться о таблицах кодировки...

20.08.2015 12:07:54

Василий, Вы меня опередили. Я хотел написать про кодировки еще два часа назад. Но отвлекся поиском точного числа кодировок.
Получается что-то около десятка несопадающих кодировок.

20.08.2015 12:23:00

В большинстве случаев (для DOS-Windows) хватает двух кодировок: OEM и ANSI, которые очень умело поддерживает старый знакомец FAR. А в общей ситуации придётся встраивать для перекодировки что-то наподобие Shtirlitz-а. Это при условии одного языка. А если документы мультиязычные? smile:(
Так что даже это очевидное решение требует проработки.

20.08.2015 12:35:19

Написал комментарий выше

20.08.2015 12:34:44

По данному посту прошел (и, кажется, не закончился) активный обмен мнения в Фейсбуке:
https://www.facebook.com/#!/groups/ecm.group.rus/permalink/976793085716262/

Наверное, я плохо изжил свои мысли.
Пост не о том, какой нужно формат утвердить для документов.
Пост о том, что у нас нет современной теории документов и мы пытаемся электронные документы 21 века запихнуть в бумажную теорию тысячелетней давности. Пытаемся делать автомобиль с помощью топора и пилы...Отсюда - результат.

Нужен не ФОРМАТ документа, а выработка правил преобразования документа из одного формат в другой (из бумажного в электронных, из PDF в TXT и т.д.), при котором копия документа сохраняет ту же юридическую значимость, что и подлинник.

У нас до сих пор нет понимание, что такое "документ" и что такое "копия документа". И нас нет понимания, что "документ" и "визуальное представление документа в виде, понятном человеку" - это не одно и то же. У нас нет понимания "документ" и "визуальное представление" не могут быть без технических средств.

У нас нет понимания того, что документ - это информация. Что нужно передавать и хранить именно информацию, а не компакт-диски...

Что касается кодировки - а в чем проблема? В мире существует, как минимум сотня живых языков, и сотни тысяч мертвых языков. Да, это создает проблемы (и мы знаем, кто эти проблемы создал - вспомним историю с Вавилонским стлопотворением). Но разве это стало преградой для появления документов?
Да, нужно договаривать о кодировке. Но, мне кажется, что тут же все обо всем давно договорились,
Вот мы тут с вами переписываемся. Проблем с кодировкой, вроде нет smile:)

20.08.2015 13:53:07

По поводу того, что

Цитата
у нас нет современной теории документов
соглашусь. А вот то, что нам нужна
Цитата
выработка правил преобразования документа из одного формат в другой
готов поспорить.
Если привести пример в Вашей же терминологии из обсуждения в Фейсбуке, то это будет означать, что нужны правила (технологии) переделки одних машин в другие или даже велосипедов в автобусы.
Скорее, проблема более похожа на создание апостилей (нотариально заверенных копий перевода). Ведь, в этом случае мы теряем и исходный носитель (паспорт, свидетельство, грамота) и оригинальный текст, но получаем результат, удовлетворяющий другую сторону. Тогда получается, что необходимо собрать воедино требования к документам этой самой "другой" стороны, а затем их реализовать.
Всё остальное: терминология, варианты представления и т.п. должно быть предметом той самой "теории документов" или правил игры.

20.08.2015 14:38:43

Конечно, аналогия в авто - не очень удачная. Тут, скорее, нужно сказать, что человек, которые пересаживается из автобуса на велосипед, остается тем же человеком smile:-)
Хотя и эта аналогия не годится до документов.

Вообще, проблема, о которой мы говорим, - это вообще не проблема, по большому счету. Т.е. мы, вместо того, чтобы весной вспахать огород и посадить картошку, много лет смотрим на заросшую сорняком землю, и горюем, что у нас нет картошки.

Вот посмотрите Закон Украины об электронном документообороте
http://unpan1.un.org/intradoc/groups/public/documents/unpan/unpan041003~1.pdf

Я не хочу сказать, что он идеален. Наверное, можно улучшить и пр. Но посмотрите - так очень понятным (а на нашим мудреным) все хорошо написано. И все - по делу.

Посмотрите хотя бы эту фразу

"Если автором создаются идентичные по документарной информации и
реквизитами электронный документ и документ на бумаге, каждый из документов
является оригиналом и имеет одинаковую юридическую силу."

А это, в частности, означает, что и электронные документы, которые имеют разные форматы, но идентичны по информации и реквизитам, - имеют одинаковую юридическую силу.
Так есть и про копию...

Нотариус для того и изобретен человечеством тясячи лет назад, чтобы фиксировать адекватность разных документов (в том числе подлинника и копии). А мы чего-то постоянно придумывает. Идем своей национальной дорогой...

20.08.2015 14:29:13

Цитата
Вот мы тут с вами переписываемся. Проблем с кодировкой, вроде нет smile:)

Я очень надеюсь, Андрей, что Вы тут пытались пошутить. smile;)

20.08.2015 14:40:35

Да, смайл нужно убрать. Я вполне серьезно.

20.08.2015 15:38:07

Хорошо. Давайте разберемся.
Я в браузере вижу ваши сообщения нормально, только по одной причине: в служебном заголовке веб-страницы стоит параметр charset = windows1251. Поэтому мой браузер знает, что ему нужно преобразовывать текст из windows1251 в кодировку utf-8. Если бы не этот параметр Ваше сообщение могло бы выглядеть вот так

Цитата
ъ НВЕМЭ МЮДЕЧЯЭ, юМДПЕИ, ВРН бШ РСР ОШРЮКХЯЭ ОНЬСРХРЭ

и мне бы пришлось самому подбирать кодировку страницы. Что собственно и приходилось делать не так давно. Да и сейчас иногда приходится делать для старых давно не поддерживаемых сайтов или при отображении на сайтах старых текстовых файлов.
Но в браузере есть возможность поменять кодировку. А в офисных программах это достаточно непросто сделать.

20.08.2015 21:45:05

Все, что вы тут написал, я знаю далеко не первый десяток лет.
Да, все так. Ну и что? Проблема-то в чем?

А когда на улице идет дождь, то приходится надевать другую обувь и брать зонт. Ну и что?

21.08.2015 14:16:00

Проблема в том, что в коде веб-странички есть параметр charset. В форматах офисных программах такого выбора нет. Ну если не считать электронных таблиц. Или я ошибаюсь?
Меня по несколько раз в месяц просят помощь в чтении doc файлов непонятной кодировки. А если предположить, что необходимо конвертнуть из Win-1251 в UTF не один, а несколько файлов.... Даже iconv не помогает, так как среди 10 файлов найдется хотя бы один с кодировкой не Win-1251, а скажем с CP-866 или UNICODE. Вот тут то и начинаются пляски.

21.08.2015 14:42:13

Я с подобными проблемами (в офисных программах) не встречался много-много лет. И даже не уверен, что всерьез встречался. При том, что я весьма серьезно заниматься программирования в среде Office (VBA) и влезал в тему глубоко.
И не слышал про какие-то подобных проблемы, хотя слежу за темой.
Так что если вы подобнее (но лучше - в отдельном посте) расскажите о проблеме - это интересно, можно обсудить.

Как решается вопрос в HTML вы уже сами знаете.
В ТХТ такого в явном виде нет. Но кто мешает вам эту информацию включить в текст (а можно - и в свойства)?
Я уже не говорю о том, что давно есть средства автоматического определения кодировки и национального языка.

Т.е. я это к тому, некоторые проблемы есть, но это на уровне того, что нужно взять зонтик от дождя.

21.08.2015 15:53:51

Цитата
При том, что я весьма серьезно заниматься программирования в среде Office (VBA) и влезал в тему глубоко.

Андрей, не хочу вас ни в чем упрекать. Но программирование это все таки не работа с документами от тысяч клиентов, у которых стоит зоопарк тех же windows с черт знает какими кодировками по умолчанию. А документы они шлют в CSV формате. Эти документы - отчеты некой системы. А разработчики этой системы, так же как Вы влезали глубоко в тему и им было абсолютно наплевать на возможные в дальнейшем проблемы с кодировками.

21.08.2015 17:26:11

Я совсем о другом: расскажите, в чем там была проблемы. Я лично не могу понять.

25.08.2015 22:02:40

Проблема в том, что автоматизировать обработку однотипных файлов, но содержащих текст в разных кодировках не совсем просто. Особенно когда заранее неизвестно в какой кодировке и откуда придет файл. Заметьте - простой текстовый файл. А если это еще и в каком-то формате сохраненный текст (например, в DOC), то это иногда превращается в решение логической задачки. И упомянутый здесь кем-то FAR ни разу не помощник. Говорю это основываясь на своем опыте решения таких задачек по просьбе коллег. Спасает лишь то, что у меня на рабочем компе стоит РОСА smile;) Это не пиар... Люди работающие под Виндовс обращаются ко мне, когда не могут прочитать файлы именно из-за несовпадения кодировок. Почему они не подбирают кодировку в своей операционке для меня до сих пор загадка.

26.08.2015 09:14:04

Вы опять повторяете уже сказанные вами слова, не поясняя сути вопроса. А я могу только повторить свое предложение вам
1. Опишите проблему в целом. И не в комментарии, которые никто кроме меня не видит, а в посте, чтобы увидели все читатели, чтобы они могли принять участие в обсуждении

2. Ваше описание проблемы - не понятно!
а) С текстовыми файлами - немного понятно, но не очень. Да там можно записывать в разных кодировка. У меня у самого в архиве 90-х полно текстовых файлов.
Но на самом деле вопрос в другом - откуда у вас вообще появилась TXT-файлы с которыми уже никто лет 15 не работает? Откуда они взялись? А второй - почему получилось так, что они оказались в разных кодировках.
Вот что вам для начала нужно описать
б) что касается DOC, то тут вообще ничего не понятно. Как могут получится в DOC разные кодировки, если там все выполняется автоматом и используется Юникод.
А об описываемой вами проблемы слышу впервые. Более того, не очень понятно, как она возможна даже просто не теоретическом уровне.
Поэтому пока я считаю, что вы что-то сильно путаете с DOC.
Или же расскажите о ваших случаях норматным техническим языком.

26.08.2015 21:06:59

1. В посте? на форуме? А зачем? Проблема носит частный характер. И это даже не проблема, а так - легкие
неудобства отвлекающие от основной работы.
2.а. Файлы взялись с компьютеров, на которых стояла единственная и неповторимая Windows во всех своих ипостасях, начиная с Windows 3.11. Что в файлах хранится, я Вам по некоторым причинам не скажу. Второй вопрос - надеюсь, Андрей, вам не надо напоминать в какой версии Windows какая кодировка русского алфавита использовалась?
2.б. Андрей, вот этого я от Вас не ожидал... Давно ли в Windows появился Юникод? MS Word сохраняет в файл текст в кодировке принятой в операционной системе по умолчанию, а не в каком-то там Юникоде. Кстати, раз уж на то пошло Юникоды тоже разные бывают (но это так... к слову).

А насчет вашего вопроса - откуда взялись файлы с которыми никто не работает... Весной ко мне обратились с просьбой написать конвертор перегоняющий файлы из формата dbase1 в формат dbase4. Некой конторе наконец-то выделили деньги на модернизацию их автоматизированной системы работающей в ДОСе.

26.08.2015 21:53:19

Дело ваше, не хотите рассказывать толком - не надо. Я только делаю вывод, что проблема эта высосана из пальца. Ее нет. Только зря потратил время на этот разговор.

26.08.2015 22:10:23

Проблема с кодировкой есть. И я описал вам ее. Мало того, я вам объяснил откуда она взялась Если вы лично с такими файлами не сталкиваетесь, то это еще не значит что их не существует.
При переводе документов в электронный вид проблема с кодировкой также как и с форматов будет существовать до тех пор, пока не будет принят стандарт. Между прочим, например, в Центробанке данную ситуацию поняли и в 2013 году вышел документ о ведении электронных активов, в котором на мой взгляд есть один важный пункт: совместно с электронным архивом хранить и дистрибутивы использованного программного обеспечения, для того чтобы можно было развернуть рабочую систему в любой момент и где угодно.
А вот я очень бы хотел посмотреть на вас лет через надцать, когда вам понадобится открывать, например, тот же doc-файл созданный в наше время в каком-нибудь мс офисе 2050, в системе где по умолчанию используется какая-нибудь совершенно новая кодировка русского алфавита.

27.08.2015 00:52:56

ОК

08.09.2015 14:47:25

Можно привести пример более реальный - DOS-овский Chiwriter https://ru.wikipedia.org/wiki/ChiWriter

08.09.2015 15:07:38

Пример чего? Я не очень понял к какому тексту относится ваш комментарий.

08.09.2015 15:36:38

Я привёл реальный пример Терентьеву к его виртуальному примеру с мс офисом 2050,
а пост почему-то поместился под Вами...

08.09.2015 17:42:43

Не знаю, что вы хотели сказать этим. У меня хранятся файту ЧиРайтера 1989 года. Я несколько лет показывал, как работает тот ЧиРайтер сегодня - воспроизводил тексты 26-летней давности

09.09.2015 08:45:25

Уточните - "воспроизводил тексты 26-летней давности" показывая их НЕПОСРЕДСТВЕННО в ЧиРайтере, запуская из-под DOSа?

09.09.2015 09:43:48

Да

08.09.2015 14:44:20

Топор = байт(ы), пила = бит(ы). Что нужно менять?
"Электронный документ не может существовать в отрыве от инструментов" - КОМПЬЮТЕРОВ.

08.09.2015 15:06:46

Да, именно так, Только я бы сказал - не столько даже компьютер, как софт.

08.09.2015 15:22:53

Софт - это логика, которой уже давно как в школах не учат. Сложнее документ - сложнее логика [софта].
Либо упрощать документ(ы) до предела, убирать усложняющую логику, либо оставлять документы ВМЕСТЕ с оформлением.
"Золотая" середина существует? Мы даже СВОИ рунические тексты читать уже не умеем, и БЕЗ компьютеров...

08.09.2015 17:43:32

Честно скажу - я не понимаю, о чем вы говорите.

Только зарегистрированные и авторизованные пользователи могут добавлять комментарии