Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

Чем занимается Applied Scientist в Big Tech: от математического моделирования до бизнес-влияния

Кто расставляет акценты в маркетинговой реальности. Роль Applied Scientist через опыт Дмитрия Тимошенко. По данным …

Российский ИИ — реальному сектору экономики РФ

Системы, использующие искусственный интеллект, сегодня внедряют многие российские компании. Конечно, чтобы был эффект …

Неизвлеченные уроки П2000, или К вопросу о качестве данных

(227)5`2000

Леонид Черняк | 22.02.2000

П2000

Складывается устойчивое убеждение, что в нашей стране проблему 2000 года ждет неизбежное забвение. Как пук сахарной ваты, поражающий поначалу своими размерами, она растает, не оставив никакого послевкусия. К сожалению, дело обстоит именно так: за прошедший месяц из “центров компетенции” не слышно ровным счетом ничего, обещанные аналитические отчеты задерживаются надолго, если не навсегда.

Россия практически без проблем перешла через рубеж миллениума. Прекрасно, но это вовсе не дает повода расслабиться и оставить без должного внимания следствия П2000, а попутно упустить шанс поучиться на ошибках, за которые немало заплачено другими. Поэтому позволю себе поделиться собственными выводами, апеллируя к мнениям известных специалистов.

Y2K - проблема данных, а не даты

С самого начала почти невозможно было поверить в правдоподобность наивного объяснения причин злосчастной ошибки тысячелетия. Многократно повторенные побасенки об экономии двух байтов и программистской непредусмотрительности не вызывали особого доверия. Согласитесь, если одно и то же действие повторяется миллионы раз, то это никак не похоже на случайность, наверняка есть тому некая объективная причина. Стоит предположить, что П2000 - частное проявление какой-то общей закономерности. А если есть какая-то непознанная закономерность, то нет ли вероятности возникновения подобных угроз в будущем? С чем, в конце концов, мы имеем дело: с опасностью, носящей систематический характер, или единичным малоприятным феноменом?

Приблизиться к ответам на эти вопросы мне помогла идея, принадлежащая Марку Аткинсу (Mark E. Akins), президенту компании Validity Technology. Его мысль настолько очевидна, что невольно вспоминаешь о гениальности простого. Аткинс говорит примерно так: “Господа, вы все зациклились на дате, на счетчике лет, на времени, но вы напрасно так привязали себя к календарю. Суть ошибки совершенно иная: по тем или иным причинам произошла массовая ошибка в представлении определенного вида символической информации, в данном конкретном случае она связана с записью даты. Подобные ошибки вполне естественны при работе с символьными данными и будут повторяться впредь”.

Стоп, вдумаемся: в текстовой форме сегодня хранится свыше 90% всего объема корпоративных данных, и вот в узенькой прослойке этих данных обнаружилась одна, но очень массовая и систематическая ошибка. Но ведь остается вся остальная масса хранимой информации и она является огромным полем для других ошибок.

Если встать на эту точку зрения, то П2000 покажется всего лишь верхушкой айсберга. Количество символических данных, которые могут содержать ошибки, бесконечно, например, это могут быть имена клиентов, названия продуктов, компаний и т. д. Всего одна ошибка в имени или названии продукта может привести к целому ряду коллизий. Вспомните классические литературные примеры: поручика Киже у Юрия Тынянова или сосуд “ведо” у Виктора Конецкого. Обыкновенное ведро, превратившись в таинственное “ведо” из-за одной пропущенной буквы, попало в список корабельного имущества и никакими силами не могло быть оттуда удалено. Заметим, как плохо административные системы справляются с такими ошибками, в них нет естественного механизма фильтрации или атрофии данных. Точно так же ни одна автоматизированная информационная система не застрахована от своих Киже и “ведо”.

Количество символической информации в ближайшие годы будет возрастать с огромной скоростью. Новый источник ошибок, электронный бизнес - это джинн, выпущенный из бутылки. Качество подготовки данных в системах электронного бизнеса вызывает огромное сомнение, и в этом контексте П2000 следует рассматривать как тревожное предупреждение.

В газете InformationWeek недавно была опубликована таблица, где сравнивается качество данных в банковской, телекоммуникационной, финансовой и страховой отраслях (www.informationweek.com/cdq/table.fhtml). В таблице приведены сведения о наиболее часто встречающихся ошибках в данных о клиентах компаний. Ниже опубликован фрагмент, относящийся только к США. Заметим, что качество данных в международном масштабе в несколько раз хуже.

Людям вообще свойственно ошибаться, и генезис ошибки Y2K следует искать не в экономии байтов, а во всеобщем разгильдяйстве по отношению к технологиям ввода, к стандартизации, к управлению качеством и т. д. Если вовремя не принять стандарты на символическое представление данных, то повторения, пусть не в такой экзотической форме, как Y2K, вполне возможны. К счастью, уже существуют определенные технологии реинжиниринга, созданные в значительной мере благодаря решению П2000.

Анализ причин Y2K с неизбежностью приводит к области, которая называется качеством данных, или data quality.

Несколько слов о проблеме качества данных

Новая угроза уже замечена, и с наступлением 2000 г. словосочетание “качество данных” приобретает все большую и большую популярность, рискуя со временем занять в общественном сознании печальное место Y2K.

Помимо угроз, вызываемых количественным ростом обрабатываемой информации, есть еще одна причина, почему ее качество привлекает к себе внимание. Стремительно изменяется отношение к значимости данных на уровне предприятий и организаций. Корпоративные данные и корпоративное знание все чаще рассматриваются как один из важнейших стратегических ресурсов. Это обстоятельство уже несколько лет является стимулом для развития новых технологий - хранилищ данных и разнообразных нетрадиционных методов работы, начиная от data mining и вплоть до управления знаниями (knowledge management), - но они могут быть продуктивными только в том случае, если опираются на высококачественные источники.

Изменение отношения к проблеме качества данных подтверждают результаты опроса, который в конце 1999 г. провела компания InformationWeek Research. Триста руководителей информационных служб крупных фирм, в основном входящих в список Fortune 1000, назвали эту проблему важнейшей среди наиболее приоритетных (поэтому сумма ответов превышает 100%) в ближайшие годы.

Распределение ответов оказалось следующим:

- улучшение качества данных - 81%;

- повышение уровня готовности корпоративных сетей - 78%;

- увеличение ширины полосы пропускания корпоративных сетей - 72%;

- создание систем электронной коммерции - 70%.

Но отношение разных специалистов к качеству данных вовсе не так однозначно, как это может показаться. В доказательство приведу некоторую информацию, почерпнутую мною из статьи Ларри Инглиша (Larry English), президента компании Information Impact (DMReview, № 2/2000, “Plain English on Data Quality: The information quality revolution”).

Л. Инглиш пишет, что в декабре 1999 г., когда уже стало ясно, что при смене года ничего особенного не произойдет, ведущими бизнес-изданиями был поднят вопрос о значении качества данных и программных продуктов в более широком контексте. Это вполне можно рассматривать как начало новой пропагандистской кампании.

Показательны заголовки: “Программные ошибки (сейчас их часто называют glitch. - Л. Ч.) стоят американским компаниям 100 млрд. долл. в год” или “Софтверный ад: ошибки стоят миллиарды и угрожают человеческим жизням” и наконец, “Угрожают ли ошибки американскому лидерству в области ПО?”. В публикациях приводится немало примеров того, как из-за ошибок в программном обеспечении или в данных, уже никак не связанных с П2000, компании несут заметные убытки. Например, кондитерский гигант Hershey Foods потерял до 30% прибыли в III квартале 1999 г. из-за ошибок в ERP SAP, стоившей ему в свое время 115 млн. долл. (данные взяты из вышеупомянутой статьи Ларри Инглиша).

По существующим оценкам, от 10 до 20% средств компаний, выделяемых на организацию продаж и аналогичной операционной деятельности, сегодня уходит на исправление ошибок, вызванных низким качеством данных. По другим источникам, на издержки, связанные с низким качеством информации, затрачиваются до 50% бюджета, выделяемого на информационные технологии.

Эти сведения об экономическом ущербе, наносимом ошибками в программах и данных, трудно переоценить, они легко и просто интерпретируются и могут быть подняты на щит, как несколько лет назад Y2K.

Л. Инглиш задается вопросом, почему все-таки проблеме качества данных уделяется недостаточное внимание внутри информационного сообщества, почему опять, как и в случае с Y2K, бизнес-пресса опережает компьютерную, почему, например, книги, посвященные качеству информации, не входят в число бестселлеров? Он объясняет это обстоятельство тем, что никто не хочет признать эту проблему своей, никто не хочет возложить на себя ответственность. Обычно люди говорят: “That’s not my problem!”, т. е. “Это не моя проблема”. Тогда чья же?

Что говорит Кен Орр?

Ответ на этот вопрос предлагает Кен Орр - известный специалист по проблеме качества данных и по хранилищам данных. Он и его ближайшие коллеги задумались о проблеме Y2K еще в середине 70-х годов. Орр автор множества публикаций, но в данном случае интерес представляет его статья “Качество данных и теория систем” (“Data Quality and Systems Theory”), размещенная на сайте института, названного по имени Орра, www.kenorrinst.com. Хотя в ней Орр пишет главным образом о хранилищах данных, но уровень философского обобщения проблемы не ограничен именно этой областью знаний.

Эту статью стоит прочесть, я же позволю себе пересказать одно близкое мне соображение. Орр представляет любую информационную систему в виде классической системы управления с обратной связью.

Эта схема позволяет формально определить значение информационной системы и показать в этом контексте качество данных. По Орру: “Информационная система в основном служит для того, чтобы давать представление о реальном мире тем людям, которые заняты в производстве или осуществляют принятие решений”. Тогда: “Качество данных определяется степенью соответствия между реальным миром и его отображением в информационной системе”.

Понятно, что при таком определении качество данных теоретически не может быть идеальным, но оно должно удовлетворять некоторым естественным критериям, а именно: данные должны быть достаточно точными, своевременными и полными, т. е. пригодными для принятия на их основе решений, для выработки тех или иных управляющих воздействий.

Для специалистов, обладающих кибернетическим подходом к системам, эта схема покажется почти тривиальной, но почему-то она практически никогда не встречается в работах по организационному управлению, в той области, которую обычно называют корпоративными информационными системами и где располагается основное количество символической информации, чреватой ошибками.

Наблюдая за тем, как в этой сфере интерпретируется понятие “управление”, вполне может сложиться впечатление, что здесь оно не подчиняется закономерностям, открытым еще Винером, а его триада составляющих управления (коммуникации, обратная связь и выработка управляющего воздействия) в данной области вовсе не обязательна.

Из схемы Орра совершенно очевидно следует, что качество управления, а следовательно, и качество данных, определяется эффективностью обратной связи.

Кто и как должен осуществлять обратную связь? Орр в своей статье убедительно показывает, что она складывается в результате взаимодействия между создателями информационных систем и пользователями, но пока их разделяет пропасть.

Орр представляет позицию разработчиков, вкладывая в их уста такие слова : “Мы вовсе не обязаны знать, как наш заказчик намеревается эксплуатировать создаваемую нами систему. Более того, нам вовсе не интересно и совсем не нужно понимать содержательный смысл его деятельности. Мы просто строим систему, которая соответствует требованиям заказчиков. Мы должны обеспечить корректные процедуры и правила работы с базами данных, но их содержимое - забота пользователя”.

В итоге, заказчик оказывается обреченным на самостоятельную борьбу за качество данных, он понимает свою ответственность, но часто не обладает достаточной квалификацией, чтобы справиться с проблемами, а его действия могут в ряде случаев привести к непредсказуемым последствиям.

Несогласованность между подходами к качеству данных у разработчиков и пользователей закладывает мину, которая может взорваться очередной проблемой. У психологов есть такой термин - “форпост-симптом”, он применяется к ранним признакам возможного серьезного заболевания. Пожалуй, именно так стоит рассматривать П2000. Она напомнила собой о необходимости объединения двух сторон рынка информационных технологий перед более серьезной угрозой.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Неизвлеченные уроки П2000, или К вопросу о качестве данных

Комментарии