Данные, сведения, сообщения, документы, информация, знания

Александр Смирнов, Владимир Криворученко, Игорь Криворученко

Введение

Среди непрерывно усложняющихся проблем информационного обмена в человекомашинных системах можно выделить следующие:

- несовместимость механизмов поддержки данных (человекоориентированные носители, машинноориентированные носители);

- расширение видов представления данных, имеющих машинную поддержку (звук, изображение в статике и динамике);

- несовместимость простых структур данных (кодировки символов, типов данных, алфавиты и т. д.);

- несовместимость сложных структур данных (структуры файлов, синтаксис и грамматика и т. д.);

- несовместимость семантическая (обозначения, определения, идентификаторы, языки общения и т. д.).

Отдельные проекты по установлению частных информационных связей между конкретными системами требуют огромных усилий по созданию, развитию и непрерывной модификации, поскольку их количество растет даже не пропорционально квадрату числа систем.

Сложность проблем информационного обеспечения требует применения адекватных системных подходов. Такие подходы стали использоваться в ЦАГИ еще в середине 80-х [1]. К концу 80-х годов в авиационной отрасли функционировала и развивалась система информационного обеспечения аэродинамических исследований. Она предназначалась для обеспечения САПР организаций отрасли полной совокупностью аэродинамических характеристик, в виде стандартизованных формализованных документов на машинных носителях.

Для интегрированной обработки формализованных документов в условиях разнородных ЭВМ и операционных систем необходимо было обеспечить средства передачи, хранения и методы доступа (в том числе и дистанционного), а также разработать и утвердить нормативную базу для осуществления этих операций (в виде отраслевого стандарта и многочисленных инструкций).

Переход на обслуживание информационных потоков с помощью машинноориентированных носителей потребовал более точных определений таких терминов, как “данные”, “документ” и “информация”, которые зачастую употреблялись как синонимы. Уже тогда стало ясно, что информационное обеспечение существенно отличается от обеспечения данными. Ведь, например, данные содержат информацию лишь в той мере, в какой они представляют интерес для конкретных адресатов. Или, другими словами, невозможно дать определение понятию “информация” вообще, безотносительно к ее получателю.

Но и сейчас термины “данные”, “сведения”, “сообщения”, “документы”, “информация”, “знания” не имеют четких различительных признаков. Что отчасти подтверждает и приведенный ниже обзор определений этих терминов, сделанный на основе различных изданий, вплоть до законов Российской Федерации. Однако обслуживание информационных потоков в сетях и с помощью машинноориентированных носителей, обслуживание запросов к базам данных, применение “интеллектуализированных” вычислительных средств для принятия решений, требуют конкретных и точных определений. Необходима фиксация принципиальных отличительных особенностей этих различающихся сущностей.

Обзор первоисточников

В этом разделе мы приведем интересующие нас определения, сгруппированные по конкретным изданиям. В начале каждой группы указывается источник, а затем следует ряд определений. Интересующие нас термины выделены полужирным шрифтом.

Федеральный закон “Об информации, информатизации и защите информации”. [4]

Информация - сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления.

Документированная информация (документ) - зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать.

Информационные ресурсы - отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).

Информационные процессы - процессы сбора, обработки, накопления, хранения, поиска и распространения информации.

Информационная система - организационно упорядоченная совокупность документов (массивов документов) и информационных технологий, в том числе с использованием средств вычислительной техники и связи, реализующих информационные процессы.

Пользователь (потребитель) информации - субъект, обращающийся к информационной системе или посреднику за получением необходимой ему информации и пользующийся ею.

Советский энциклопедический словарь. Под ред. А. М. Прохорова. [2]

Данные - факты или идеи, выраженные в формализованном виде, обеспечивающем возможность их хранения, обработки и передачи.

Документ - материальный носитель с записанной на нем информацией, предназначенный для ее передачи во времени и пространстве. В узком смысле - деловая бумага, юридически подтверждающая какой-либо факт или право на что-то.

Информация - сведения, передаваемые людьми устным, письменным или иным способом. С середины 20-х годов - общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, автоматом и автоматами и т. д.

Знание - проверенный практикой результат познания действительности, верное ее отражение в памяти человека.

Логический словарь ДЕФОРТ. Составитель В. Н. Переверзев. [6]

Информация - знание, представленное в форме объективного сообщения, формализованное знание. По Шеннону, информацию содержат лишь такие сообщения, которые уменьшают или полностью устраняют неопределенность в выборе одной из двух или более возможностей. По Р. Эшби, информация есть “отраженное разнообразие”. При этом некоторое простейшее различие между объектами является основой для измерения.

В логике информация - формализованное знание, представленное в виде объективного сообщения в символической форме и выступающее в качестве объекта коммуникации между людьми.

Знание - система абстрактных объектов, доступная пониманию конкретного человека или сообщества людей. Система - целостная совокупность взаимосвязанных объектов.

Коммуникации - обмен информацией между объектами естественного или искусственного интеллекта.

Философский словарь. Под ред. И. Т. Фролова. [7]

В понятии “информация” следует различать два аспекта.

Во-первых, информация представляет собой меру организации системы. Математическое выражение для информации тождественно выражению для энтропии, взятой с обратным знаком. Как энтропия системы выражает степень ее неупорядоченности, так информация дает меру ее организации. Так понятая информация может быть названа структурной.

От структурной информации следует отличать информацию, связанную с отношением двух процессов. Если в предмете A происходят изменения, отражающие воздействия другого предмета B, то можно сказать, что А является носителем информации о В. С этой точки зрения мозг человека представляет сложную кибернетическую систему, хранящую и перерабатывающую поступающую из внешнего мира относительную актуальную информацию.

Мэйл Дэвид. Управление информацией. [8]

Любое содержательное определение понятий “данные” и “информация” подразумевает, что данные являются исходным сырьем, потенциальным источником для информации, которая может быть из них извлечена. Данные могут содержать описание событий или объектов при помощи слов, символов и знаков. До тех пор, пока данные не станут понятны адресату, они так и останутся данными.

Согласно современным представлениям, информацией считают лишь “новые данные, принятые, понятые и оцененные как полезные конечным пользователем”.

Характерными отличительными чертами информации является то, что она должна быть: понятной, относящейся к делу и полезной.

Получение информации на основе данных есть активный процесс. Он требует понимания, что представляет собой источник информации. Данные должны быть достоверными и точными.

Коммуникация - обмен данными, информацией, идеями или чувствами. Такое определение обязательно предполагает передающую и принимающую сообщение стороны, процессы выдачи сообщения, передачи сообщения, приема сообщения, анализа сообщения и принятия решения принимающей стороной, а также наличия результата коммуникации.

Красилов Н. и др. “Об одной модели документооборота”. [9], Гавердовский А. “Концепция построения систем документооборота”. [10]

Документ является основным способом представления информации, на основе которой функционирует любое предприятие. Информация бывает структурированная, предполагающая, что за ее хранение и управление отвечают базы данных и прикладные информационные системы, и неструктурированная - просто документы.

Документ - это некая обособленная часть информации, представленная на определенном носителе. Как правило, документы различаются по типам носителей информации. И основные резервы повышения эффективности работы с документами лежат именно в типах носителей.

Документ - слабоструктурированная совокупность блоков или объектов информации, понятная человеку. Устная речь позволяет ускорить процесс передачи информации, но повышает степень неопределенности.

Произведем сравнительный анализ преимуществ и недостатков приведенных выше определений. Важно отметить, что все термины, указанные в подзаголовке статьи, в этой подборке имеются. А вот их трактовка требует корректировки и конструктивного упорядочивания.

Принципы подхода

Мир, в котором мы живем, существует в пространстве и времени. Философские и научные исследования, а также личный опыт каждого из нас показывают, что мы постигаем мир, конструируя такие понятия, как объекты (предметы, данные и т. д.) и явления (действия, процессы и т. д.). Модель внешнего мира может быть построена на основе системного подхода [3] путем декомпозиции проблемной области на подсистемы предметов (данных) или подсистемы действий (процессов). В дальнейшем будем использовать понятия данные и процессы. В естественных языках данные называются существительными, в отличие от процессов, которые называются глаголами. Данные являются исходным, первичным понятием по отношению к остальным, рассматриваемым в этой статье. По нашему мнению, достаточно ограничиться определением, взятым из энциклопедического словаря, а именно: данные - факты или идеи, выраженные в формализованном виде, обеспечивающем возможность их хранения, обработки и передачи.

Классификация данных начинается с их именования. Именованные данные должны обладать по крайней мере одной качественной характеристикой, которая в естественных языках называется определением. Наличие этой характеристики относит их к множеству объектов, обладающих этим же качеством, определяющим его ТИП. Как, например, в языках программирования числовые данные могут быть типов REAL, INTEGER и т. д.

Чрезвычайно важно то, что данные могут быть представлены в двух качественно различных ипостасях.

Постоянные, асинхронные данные представляются на каком-либо носителе: текст на бумаге, текстовый файл на внешних носителях ЭВМ и т. д. Процесс создания данных не синхронизируется с процессом их потребления. Для асинхронных данных важной характеристикой является абсолютный момент времени: дата создания, дата доступа, дата модификации и т. д.

Временные, синхронные данные служат средством протекающего во времени коммуникационного процесса между передатчиком и приемником данных. Для синхронных данных важной характеристикой является относительная длительность фаз (временная развертка) коммуникационного процесса.

Временные (или синхронные) данные переходят в разряд асинхронных после того, как какая-либо их часть, выделенная потребителем, идентифицируется и переносится на конкретный носитель.

Назовем объект или субъект (одушевленный объект), осуществляющий ввод, преобразование и вывод данных ПРОЦЕССОРОМ.

Асинхронные системы данных

Форма представления данных относит их и к множеству процессоров, которые могут эти данные ввести и обработать. И в этом случае можно говорить о сведениях как о входных данных, понятных определенному множеству процессоров. Процессор, осуществляющий асинхронный ввод сведений и их преобразование, назовем Читателем. Например, человек, читающий текст, “вводит” и понимает сведения, которые этот текст содержит.

Процессор, который осуществляет генерацию, преобразование и вывод данных, назовем Писателем. Писатель, пишущий текст, понятный другим людям, формирует сведения.

Сведения являются документом в том случае, если они:

- представлены на конкретном носителе и обладают определенной структурой;

- созданы (указаны место и время) конкретным процессором (Писателем);

- ориентированы на прием определенным классом потребителей (Читателем);

- идентичны оригиналу, созданному Писателем.

Сведения содержат информацию в том случае, если они: восприняты и поняты принимающим процессором (Читателем), являются для него новыми, значимыми, будут использованы им для принятия решения.

Один из вариантов принятия решения - это перевод полученных сведений в форму знаний и расширение базы знаний. Перевод информации в знания осуществляется для того, чтобы в будущем принимать решения более эффективно. Например, на основании сведений, меньших по количеству (объему) данных.

Другим вариантом принятия решения является передача управляющего сообщения в систему, обеспечивающую выполнение решения. Например, принятия очередной порции сведений.

Если процедура принятия решения на основании повторяющихся видов документов допускает ее алгоритмизацию и формализацию, то можно назвать такие документы формализованными. Сведения, имеющие вид формализованного документа, предпочтительнее других форм представления данных для передачи информации, так как процедура принятия решений становится более объективной. Это особенно важно в компьютеризованных системах.

Следует подчеркнуть, что сведения содержат неискаженную информацию только в том случае, если обеспечена их целостность (отсутствие изменений в данных) при перемещениях от Писателя к Читателям.

Процесс принятия решения включает в себя следующие этапы:

- принятие порции сведений (например, формализованного документа);

- принятие предварительного решения (по таким формальным внешним характеристикам документа, как автор, адресат, даты, целостность и т. д.) о корректности и возможности дальнейшего рассмотрения сведений;

- рассмотрение полученных сведений и соотнесение их с базой знаний на предмет их новизны и полезности;

- принятие нетривиального решения на основе анализа и сопоставления имевшихся знаний и вновь поступившей информации (рис.1).

Рис. 1. Схема принятия решения в асинхронном процессе

Для выполнения этих этапов принимающий решение объект должен обладать соответствующими механизмами. В частности, нужно подчеркнуть абсолютную необходимость наличия базы знаний.

Приведенное выше определение из энциклопедического словаря: “знание - есть проверенный практикой результат познания действительности, верное ее отражение в памяти человека” - можно расширить. “Знание - есть проверенный практикой результат познания действительности, верное ее отражение в памяти субъекта или объекта в виде систем абстрактных объектов или абстрактных ситуаций, адекватно отражающих реальные сценарии поведения субъекта или объекта в окружающей среде. Знания, в данном случае, есть система данных или система асинхронных ситуаций.

В то же время сравнивать вновь поступившие сведения с хранящимися в базе знаний возможно лишь при условии приведения их к единым “системам координат” и одинаковым “размерностям”.

И с этой точки зрения по-новому раскрывается определение информации как формализованного знания: “информация - знание, представленное в форме объективного сообщения, формализованное знание”. Для того чтобы сравнить вновь поступившие сведения со знаниями, нужно предварительно привести их из абстрактного представления в базе знаний к реальному виду представления сведений, к реальным единым “системам координат” и одинаковым “размерностям”. Понятно, что если сообщение имеет вид формализованного документа, то этот процесс легче поддается алгоритмизации. В качестве примера можно привести сознательные размышления человека над поступившими сведениями перед принятием решения.

Альтернативный процесс ввода данных и принятия решения заключается в том, что реальный вид сведений трансформируется (путем отсечения несущественных отличий) к виду абстрактного представления его в базе знаний, к абстрактным единым “системам координат” и одинаковым “размерностям”. Отсюда, по аналогии, возникает и идея “обратного” определения знания как “абстрагированной” информации. В качестве примера можно привести принятие решения человеком на подсознательном уровне мышления на основе поступивших сведений.

Синхронные системы процессов

Если два процессора синхронизируют (упорядочивают) свои действия по приему и передаче данных, то они находятся в процессе коммуникации.

Процессор, который осуществляет преобразование, формирование и передачу данных, назовем Передатчиком. Форма представления данных относит их и к множеству процессоров, способных эти данные принять и понять. В этом случае можно говорить о сообщениях, как о входных данных, понятных множеству процессоров, участвующих в процессе коммуникации.

Процессор, осуществляющий ввод сообщений и их преобразование, назовем Приемником.

С помощью сообщения можно передать документ в том случае, если временные, синхронные данные сообщения могут быть перенесены на носитель (энергонезависимый) и переведены в разряд асинхронных. Кроме того, в этом состоянии данные сообщения удовлетворяют приведенным выше требованиям для документа.

Сообщения содержат информацию в том случае, если они восприняты и поняты принимающим процессором (Приемником) и являются для него новыми, значимыми и актуальными, а также будут использованы для принятия решений в заданном внешними условиями интервале времени.

Сообщения, имеющие вид формализованного документа, предпочтительнее других форм представления данных для передачи информации. Процедура принятия решения на основании документа также становится более формализованной и объективной, что допускает ее алгоритмизацию. Что особенно важно в компьютеризованных системах принятия решения? Прежде всего, обеспечение целостности документа при его перемещении от Передатчика к Приемнику в результате коммуникации. Под целостностью документа будем понимать не только его идентичность оригиналу, принадлежащему Передатчику. Важно и то, чтобы никакая часть сообщения, содержавшего документ, не была использована несанкционированным способом.

Процесс принятия решения включает в себя следующие этапы:

- принятие сообщения (например, формализованного документа);

- принятие предварительного решения (по таким формальным внешним характеристикам документа, как автор, адресат, даты, целостность и т. д.) о корректности и возможности дальнейшего рассмотрения сообщения. Примером может быть решение о необходимости повторной передачи документа или его части;

- соотнесение полученных данных с базой знаний на предмет их новизны, полезности, актуальности;

- принятие, на основе анализа и сопоставления имевшихся знаний и вновь поступившей информации, нетривиального решения в заданном внешними условиями интервале времени (рис. 2).

Рис. 2. Схема принятия решения в синхронном процессе

Для выполнения этих этапов принимающий решение объект должен обладать соответствующими механизмами. В частности, нужно подчеркнуть абсолютную необходимость наличия базы знаний. В данном случае Знания, в отличие от предыдущего определения, есть система процессов или система синхронных ситуаций.

Как и в варианте анализа сведений, сравнение вновь поступивших сообщений со знаниями, хранящимися в базе знаний, возможно лишь при условии приведения их к единым “системам координат” и одинаковым “размерностям”. Аналогично, сравнение и анализ могут происходить как в “пространстве” реальных, желательно формализованных синхронных ситуаций, так и в “пространстве” абстрактных, возможно, слабо формализованных, синхронных ситуаций. В качестве примера можно привести принятие решений человеком автоматически, на основе условных или безусловных рефлексов.

Мы призываем желающих к дискуссии и обещаем, что “продолжение следует”.

Литература

1. Смирнов А. Д., Криворученко В. С. Системный подход в рамках САПР к задаче автоматизации аэрофизического эксперимента в многомашинной АСНИ. В сб.: “Вопросы кибернетики. Автоматизированные системы научных исследований”. М., ВИНИТИ, 1986.

2. Смирнов А. Д., Криворученко В. С., Шарий К. А. Распределенные системы автоматизации аэродинамических исследований. В сб.: Труды симпозиума “Компьютеры в Европе. Прошлое, настоящее и будущее”. Киев, 1998.

3. Ross D.T. Structured Analysis (SA): A Language for Communicating Ideas IEEE Transactions of Software Engineering 1977. V. SE-3, № 1.

4. Федеральный закон “Об информации, информатизации и защите информации”. М., Российская газета, 22 февраля 1995.

5. Советский энциклопедический словарь. Под ред. А. М. Прохорова. М., Советская энциклопедия, 1989.

6. Логический словарь ДЕФОРТ. Составитель В. Н. Переверзев. М., Мысль, 1994.

7. Философский словарь. Под ред. И. Т. Фролова. М., Политиздат, 1980.

8. Мэйл Дэвид. Управление информацией. М., МЦДО “Линк”, 1997.

9. Красилов Н. и др. Об одной модели документооборота. Открытые системы, 1997, № 1.

10. Гавердовский А. Концепция построения систем документооборота. Открытые системы, 1997, № 1.