Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
ИТ-менеджмент: Статьи Новости компаний Решения

Панорама

МТС запустил сервис для работы с документами SmartDocs

ПАО «МТС» цифровая экосистема, объявила о запуске сервиса SmartDocs. Новое решение повысит эффективность …

Сетевой адаптер LR-LINK PCIE 100GB позволяет добавить в конфигурацию системы два порта 100GbE

Современные приложения и сервисы предъявляют достаточно высокие требования к скорости, производительности …

Сетевые фильтры Powercom: оптимальная защита вашей электроники

Сложно представить себе современную квартиру или офис без большого количества электрических розеток. Их всегда …

Как работает ипотека?

На сегодняшний день ипотечным кредитованием пользуется практически каждый. Но понимания того, как именно работает ипотека и по какой схеме происходит оформление у большинства людей нет.

«Нейронные сети и машинное обучение приведут к ускорению развития»: ведущий IT-эксперт Аралтан Горяев оценивает будущее индустрии

Недавно в Дубае на Всемирном правительственном саммите один из крупнейших предпринимателей заявил …

Данные со знаком качества

Сергей Костяков | 24.10.2019

Михаил Александров, руководитель практики платформенных решений “SAS Россия/СНГ”

Юрий Бондарь, заместитель генерального директора SAP CIS

Илья Калагин, руководитель Центра когнитивных технологий “АйТеко”

Егор Осипов, руководитель направления Big Data компании КРОК

Владимир Рождественский, генеральный директор DATAREON

Роман Стрекаловский, ведущий архитектор компании “Юнидата”

Александр Тарасов, управляющий партнёр DIS Group

Развитие глобальной бизнес-среды сопряжено с появлением в ней новых процессов или ресурсов, которыми приходится управлять. Сначала речь идет о элементарном учете, затем мы переходим к их планированию на определенном временном горизонте. Если же тот или иной ресурс становится критически важным, выкристаллизовывается понятие его качества. Именно в таком контексте мы сегодня начинаем говорить о качестве данных. В рамках данного обзора постараемся разобраться, что мы подразумеваем под этим понятием, как его оцениваем и какие предпосылки способствуют тому, чтобы концепция качества данных была адекватно воспринята бизнесом и успешно претворялась в жизнь.

Качество как универсальная категория

Термин «управление качеством» как таковой относится к разным сущностям, и для бизнеса он далеко не новый. Мы давно хорошо знакомы с понятием качества продукции, качества производственных процессов. Затем весьма значимую роль стали играть технологии автоматизации, и спустя какое-то время четко обозначилось понятие качества программного обеспечения. В этом смысле можно задаться вопросом насколько все это может иметь отношение к возникшей не так давно концепции Data Quality. Ведь, с одной стороны, подобные инициативы очень различны и по постановке задач, и по методам их решения, и в отношении персонала, вовлеченного в соответствующую деятельность. Но, с другой стороны, подходы к обеспечению качества — это своего рода часть производственной культуры, которая, как известно, накапливается.

«Безусловно, процесс управления качеством данных имеет много общих принципов с управлением качеством в других областях, — считает Михаил Александров, руководитель практики платформенных решений „SAS Россия/СНГ“. — Одним из основных моментов для управления качеством является цикл организационного управления Plan-Do-Check-Act (PDCA, планирование — действие — проверка — корректировка). Это подчеркивает необходимость непрерывно и итерационно управлять качеством, в том числе качеством данных».

«На мой взгляд, опыт управления качеством в других сферах действительно может помочь, хотя он и не является обязательным,— отметил заместитель генерального директора SAP CIS Юрий Бондарь. — Тут важнее иметь практику работы с информационными системами и понимать бизнес-процессы компании. Качество — это потребительская характеристика, и ее нужно рассматривать с точки зрения пользователя данных. Общие принципы управления качеством, безусловно, существуют. И если компания планирует организовать управление качеством своих данных на регулярной основе, то полезным будет использовать стандарт ISO 9000».

«Да, опыт будет полезен, и да — необходимо знать принципы и руководствоваться эффективными методами управления качеством», — подчеркивает важность имеющегося опыта решения задач повышения качества Владимир Рождественский, генеральный директор DATAREON.

Роль системы транспорта в процессе управления качеством данных

Владимир Рождественский, генеральный директор компании DATAREON

Выстроить процесс управления качеством данных без системы MDM (master data management) при нынешних требованиях к данным очень и очень сложно. Так что когда обсуждается стратегия построения процессов управления, то в качестве инструментов в первую очередь рассматривают именно MDM-системы. Однако это не единственный инструмент, который следует использовать для повышения качества данных. Помимо ведения и хранения в управлении данными есть не менее важный пункт — их доставка до потребителя. Об этом мы и поговорим в статье.

Процессы управления, реализованные в MDM-системе, безусловно повышают качество данных как в самой MDM, так и в тех информационных системах, которые пользуются данными из неё. Кроме того, как мы знаем, MDM-система управляет мастер-данными, которые по сути являются неким описанием объектов реального мира.

Подробнее

Ведущий архитектор компании «Юнидата» Роман Стрекаловский также считает, что большинство подходов к повышению качества данных базируется на методах, применяемых для управления качеством продукции на промышленных предприятиях.

Процессный компонент

Уже из представленных мнений понятно, что тема управления бизнес-процессами (BPM, business process management) в контексте решения задач Data Quality весьма актуальна. Управление качеством, к какой бы сущности это понятие не применялось, всегда имеет процессную составляющую. И дисциплина Data Quality здесь не исключение.

«В современном постиндустриальном мире не стоит стремиться отделить информацию и данные от бизнес-процессов и продуктов, которые выпускает организация. Ранее мы могли определять продукт как некий базис, материальную основу, а информации оставлять роль надстройки. Сегодня же последствия недооценки надстройки могут разрушить базис, чему за последние 20 лет можно найти множество примеров в ИТ-отрасли. Поэтому стоит рассматривать процессы, данные и продукты комплексно, неотделимо друг от друга», — утверждает Илья Калагин, руководитель Центра когнитивных технологий «АйТеко». В качестве примера он приводит часто встречающуюся на практике ситуацию, когда наиболее эффективным путем борьбы с ошибками является не регулярная работа непосредственно с данными, а внесение подчас совсем небольших изменений в бизнес-процесс или интерфейс ИТ-системы.

То, что связь механизмов работы с данными и бизнес-процессами должна быть весьма глубокой, подчеркивает и Роман Стрекаловский: «Один из базовых принципов разработки программы качества данных — встраивание мероприятий по управлению качеством в бизнес-процессы организации. Сотрудники, отвечающие за различные бизнес-процессы, отвечают и за качество данных, создаваемых в ходе этих процессов. Соответственно они же отвечают и за обеспечение соблюдения стандартов качества в рамках своих процессов».

«Процессный аспект близок к вопросам качества данных, — комментирует ситуацию Егор Осипов, руководитель направления Big Data компании КРОК, — Если, к примеру, компания хочет выстроить процесс управления Data Quality, стоит позаботиться, чтобы он был детализирован и прописан. Нужно внедрить соответствующее программное обеспечение, назначить ответственных и хорошо проработать взаимодействие различных бизнес-подразделений. Управление качеством данных — сквозной процесс, и его невозможно выстроить без глубокого взаимодействия большого количества отделов, департаментов и других элементов оргструктуры».

«Важно распространить на обеспечение качества данных традиционные процессы управления PDCA. Процессы обеспечения качества данных должны быть непрерывными, причем на всех этапах работы с данными: от занесения в системы, до перегрузки в хранилище и использования в BI-решениях. Кроме того, обеспечение качества данных требует налаживания бизнес-процессов, организационной структуры, корпоративных ролей, традиционных для управления активами», — подчеркивает управляющий партнёр DIS Group Александр Тарасов. Также, по его мнению, потребуется введение KPI качества данных, выявления ответственных за них и внедрение системы измерения качества данных.

«Процессный подход является основой обеспечения качества. Если не организовать процесс нужным образом, то и гарантировать качество на выходе будет невозможно. А если пытаться контролировать качество на выходе, то не удастся выстроить единых процедур контроля, так как выход из процесса будет непредсказуем. То есть в любом варианте построения процессов обеспечения качества процесс важен, — говорит Владимир Рождественский. — Одна из самых успешных методологий управления качеством выросла из методологии бережливого производства компании „Тойота“ (LEAN). Один из ее принципов гласит, что качество должно быть встроено в процесс, а не контролироваться на выходе из него. Говоря по-простому, процесс не должен позволить любому его участнику совершить ошибку».

В целом почти все опрошенные эксперты подчеркивают, что процессный подход тесно сопрягается с Data Quality прежде всего с целью непрерывного контроля качества данных в течение всего их жизненного цикла. Они обращают внимание и на то, что данный подход не только связывает деятельность по управлению качеством в пределах жизненного цикла, но и консолидирует активность со стороны разных функциональных подразделений. Александр Тарасов приводит в пример ситуацию, когда запись о клиенте может содержать двести и более атрибутов, за которые будут отвечать сотрудники различных подразделений. В этом случае необходимы инструменты, позволяющие полностью сконструировать сквозную систему ответственности за данные, включая их создание, передачу, согласование изменений и иные преобразования.

«Юнидата» — лидер российского рынка систем управления данными

Роман Стрекаловский, ведущий архитектор компании “Юнидата”

— «Юнидата» — инновационная российская ИТ-компания, успешно работающая в области создания программного обеспечения. Ядро команды сформировалось в 2007 г. как R&D-команда различных стартап-компаний. В течение целого ряда лет специалисты компании занимались реализацией крупных проектов по внедрению решений класса MDM (Master Data Management, управление мастер-данными) и управлению качеством данных (Data Quality). Их работа получила множество положительных отзывов от известных аналитических агентств, таких как Gartner и Forrester. Среди клиентов «Юнидата» — АО «Российские космические системы», Объединенная приборостроительная корпорация, Министерство сельского хозяйства Российской Федерации, РЖД, «МегаФон».

Нашими специалистами накоплены не только технологические знания, опыт проектирования, разработки и контроля качества информационных систем, но и серьезная экспертиза по внедрению продукта на российском и зарубежном рынках.

Флагманский продукт компании — многофункциональная платформа для построения систем управления корпоративными данными «Юнидата». Среди основных функций платформы — централизованный сбор данных, поиск и объединение дубликатов, анализ данных и формирование статистики, стандартизация и обеспечение качества данных, их выгрузка в сторонние информационные системы, управление данными на основании внутренних регламентов предприятия, предоставление прав на действие с данными. Продукт обладает широким спектром возможностей по управлению информацией для получения актуальных и достоверных данных и следует современным трендам Data Governance.

В 2017 г. в рамках выполненных работ по увеличению эффективности системы платформа достигла производительности в 1 млрд. записей. «Юнидата» стала одной из очень немногих компаний в мире, способной работать с таким массивом нормативно-справочной информации на неспециализированном аппаратном комплексе (commodity hardware). При разработке во главу угла был поставлен принцип «миллиард за миллион»: речь идет о миллиарде записей на серверах стоимостью всего 1 млн. руб. Надо отметить, что данный показатель ставит систему управления данными «Юнидата» в один ряд с лучшими MDM-решениями в мире.

Позже вышла редакция «Юнидата 4.7 HPE» (High Performance Edition). Она предназначена для построения систем управления данными крупных корпораций и предприятий с высокими требованиями как к объему данных (от 100 млн. записей и выше), так и к скорости работы с ними. Новая редакция платформы включает в себя дополнительные модули по мониторингу производительности отдельных компонентов и самого решения в целом, скорости обработки данных в пакетных и онлайн-режимах. Добавлены модули по информированию администратора об отклонениях текущих метрик от целевых, специализированные модули пакетной обработки, предназначенные для больших объемов данных, а также детализированные инструкции по построению и обслуживанию высоконагруженных систем управления основными данными.

2018 год ознаменовался полномасштабным сотрудничеством компании «Юнидата» и всемирно известного ИT-агентства Gartner. Взяв курс на продвижение нашей платформы на международные рынки, «Юнидата» решила принять участие в Gartner Data & Analytics Summit ‘2018, прошедшем 23‒24 октября 2018 г. во Франкфурте (Германия). Gartner Data & Analytics Summit — крупнейшая конференция в области управления данными, принимающая более полутора тысяч посетителей. Выступления, презентации, круглые столы, мастер-классы, выставка — вот далеко не полный список мероприятий под эгидой саммита во Франкфурте. Особый упор сделан на кластер Data Governance (MDM, DQ, Privacy, Security). «Юнидата» стала первой российской компанией — официальным спонсором этого события. Участие продиктовано активным развитием платформы на внешнем рынке, а также большим интересом к ней со стороны крупнейших международных корпораций.

Осенью 2019 года компания «Юнидата» представила новый продукт под названием Unidata Data Governаnce (UD DG), который разработан для решения принципиально новых задач по руководству данными как активом. Продукт находится на пике мировых трендов в этой области как по набору инструментов, так и по методологической практике их внедрения и применения.

UD DG позволяет соединить и отследить все действия пользователей, связанные с данными на всех уровнях предприятий любого масштаба: от годовых отчетов руководства компании до колонки в таблице регионального подразделения. При решении подобных задач основными инструментами Unidata DG стали модули Business Glossary ( словарь бизнес-метаданных), Data Lineage (специальные возможности для исследования и документирования потоков данных в хранилище) и Metadata Crawler (автоматический сборщик мета-данных).

Это принципиально новый продукт, который разработан для решения принципиально новых задач по руководству данными как активом.

В ноябре 2019 года представитель «Юнидата» выступит на крупнейшем мероприятии Gartner Data & Analytics Summit 2019 с докладом.
ПАРТНЕРСКИЙ МАТЕРИАЛ

Стремиться к численным показателям

Как и у каждой управленческой концепции, у Data Quality есть как методическая сторона, так и обеспечивающие ее технологические инструменты. Начнем с первого вопроса, который, признается экспертами в качестве ключевого. Основу любой методологии, как известно, составляют разработки, позволяющие измерять получаемый результат, а оценка качества в численных показателях представляется объемной и не самой простой задачей, для которой могут существовать свои показатели, приоритеты, свои методы представления информации и иные нюансы.

«На наш взгляд, правильно фокусироваться на доменах, которые имеют большее значение для бизнеса и где можно определить понятные KPI. Например, сокращение сверхурочных трудозатрат общих центров обслуживания (ОЦО), сроков финансового закрытия, обработки фактур или количества аудиторских поправок», — считает Юрий Бондарь.

«В ходе проекта обычно разрабатываются так называемые Data Quality Dashboards, на которые выводятся KPI качества данных, — комментирует проблему количественной оценки Егор Осипов. — Это могут быть как самые простые показатели, вычислемые элементарными статистическими методами, так и комплексные характеристики, которые можно отобразить на едином дашборде». Помимо безусловной важности KPI Михаил Александров упоминает еще одну хорошо известную в бизнесе группу численных характеристик — соглашения об уровне обслуживания (SLA). «Закрепление требований к качеству данных на уровне SLA между владельцами и потребителями данных также является весьма немаловажным фактором», — утверждает он.

Специалисты, этапы, документы...

Помимо количественной оценки получаемого результата к сфере методологии традиционно относят следующие подвопросы:

на какие фундаментальные или же специально формируемые под задачу документы приходится опираться при внедрении обсуждаемой нами концепции?
каких специалистов приходится привлекать?
какова структура внедрения — целесообразно ли разбивать проект в сфере Data Quality на отдельные этапы, и имеют ли они самостоятельную ценность?

В качестве фундаментального документа многие эксперты ссылаются на небезызвестный DMBoK (Data Management Book of Knowledge).

«DMBoK — это основа, но достаточно молодая, — сказал Юрий Бондарь, — При этом многие стандарты в области управления ИТ так или иначе затрагивали вопросы обеспечения качества данных задолго до появления DMBoK. И этот опыт также полезно использовать». Но, кроме того, по его словам, компания применяет собственную методологию управления данными, которая адаптируется под нужды конкретного клиента. Фактически ту уж мысль высказывает и Михаил Александров: «DMBoK — общепризнанное руководство по управлению данными. При этом рекомендации, приведенные в DMBoK, слишком общие, поэтому при внедрении решений Data Quality необходима детальная проработка методологии с учетом специфики компании и внедряемых инструментов».

Роман Стрекаловский очень подробно перечислил целый ряд полезных документов и даже назвал раздел DMBoK — Data Quality Dimensions, — которым можно руководствоваться, оптимизируя этапность работ по внедрению концепции качества данных. «При решении задач обеспечения Data Quality в части общих положений и рекомендаций безусловно стоит ориентироваться на DMBoK2. Кроме того, существует ряд международных и российских стандартов, имеющих отношение к Data Quality. Прежде всего это комплексы стандартов ИСО 8000 „Качество данных“ и ИСО 22745 „Системы промышленной автоматизации и интеграция“. Также обязательно учитывать различные отраслевые нормативно-методические документы, содержащие требования к данным».

Егор Осипов заметил, что «часто верхнеуровневые документы для заказчика пишут консалтинговые компании. А детализация процессов и методика расчета KPI по качеству данных всегда разрабатывается в ходе проекта. Она индивидуальна для каждого предприятия и предметной области».

Что касается специалистов, прямо или косвенно вовлеченных в процесс имплементации Data Quality, вполне ожидаемо, что в качестве ключевой фигуры называется Chief Data Officer. «В настоящее время становится популярным должность CDO. При этом нередко отсутствует четкое понимание обязанностей и полномочий у данной структурной единицы, — сказал Михаил Александров. — На наш взгляд, основной задачей CDO является внедрение процессов и правил управления данными. При этом ответственность за корректный ввод данных и исправление выявленных ошибок ложится на бизнес-подразделения».

Александр Тарасов упомянул специальную должность Data Quality Officer. При наличии такой должности человек, ее занимающий, по его словам, должен руководить командой дата-инженеров и бизнес-аналитиков, которые, в свою очередь, будут осуществлять мониторинг качества данных, планировать его и разрабатывать методологические рекомендации для всей организации.

Конечно, внедрение Data Quality не ограничивается этими ключевыми фигурами. «Для управления качеством данных в организации обычно требуется команда по реализации программы качества. Она отвечает за привлечение к деятельности по обеспечению качества специалистов по управлению данными со стороны бизнеса и технических служб, а также за руководство работами по применению методик. Выделение определенных ролей зависит от специфики и приоритетов организации», — утверждает Роман Стрекаловский.

Егор Осипов назвал относительно новую для отечественного корпоративного рынка ролевую функцию Data Steward. Это, по его определению, «люди, которые несут ответственность за описание, логику формирования и процедуру проверки качества данных».

В силу масштабности работ по имплементации концепции Data Quality на предприятии, эту деятельность можно и нужно делить на отдельные этапы. Можно напрямую соотносить их с этапами жизненного цикла — получением, использованием, корректировкой или уничтожением данных. Если же значимые для бизнеса ИТ-ресурсы касаются большинства сторон деятельности компании, можно разделять проект по функциональному признаку. «Внедрение всех задач по управлению качества данных на всем предприятии — это длительный, ресурсоемкий проект, который имеет смысл разделить на несколько этапов. Как правило, при внедрении Data Quality мы разделяем этапы внедрения по функциональным областям, а не по шагам цикла работы с данными», — сообщил Михаил Александров.

О схожей структурной классификации проекта говорит и Егор Осипов: «Обычно мы стараемся разбить этот процесс на этапы по различным предметным областям и бизнес-функциям. При этом в крупных проектах первый этап мы разбиваем на подэтапы. В них создаем регламенты, осуществляем итерационное внедрение ПО, обучаем пользователей».

Юрий Бондарь указал на целесообразность решения проблемы управления качеством данных в контексте их жизненного цикла: «Стоит выделять управление качеством данных и их жизненным циклом вплоть до уничтожения в информационных системах предприятия. Любой компании особенно важно выстроить вертикаль управления качеством данных от создания отдельной транзакции в учётной системе до появления этой проводки в управленческой отчетности. Это обеспечивает бизнес возможностью проследить за данными и способствует формированию доверия к аналитике в целом. А следующим шагом станет внедрение управления жизненным циклом».

Оптимальный инструмент

В современной бизнес-среде практически любым методическим разработкам можно сопоставить программные инструменты. Естественно не является исключением и сфера Data Quality.

«Понятие данных в современном мире настолько же обширно, как и количество инструментов, применяемых для их обработки. В зависимости от свойств данных и цели их использования применяются различные инструменты, начиная от нормализации и заканчивая методами тензорного анализа» — утверждает Владимир Рождественский.

Роман Стрекаловский, отмечая весьма широкий спектр ИТ-систем, имеющих отношение к Data Quality, вместе с тем конкретно называет те инструменты, которые, по его мнению, особенно востребованы: «Наиболее употребимыми являются средства профилирования данных, формирования сложных запросов, моделирования, ETL, а также репозитории метаданных, поскольку именно они лежат в основе обеспечения качества данных. Также надо понимать, что инструменты постоянно меняются, подключаются возможности машинного обучения».

Представители крупнейших компаний-производителей корпоративного ПО (среди наших экспертов это сотрудники SAP и SAS) тоже указывают на функции ИТ-поддержки, прямо или косвенно относящиеся к теме Data Quality. Причем по их высказываниям вполне можно судить о том, что ряд ИТ-систем, с помощью которых уже много лет успешно решались задачи хранения и обработки корпоративных данных, в контексте решения задач класса Data Quality уже используются весьма успешно и интенсивно. Называются, например, ETL-средства, средства очистки и нормализации данных, хранилище данных (в том числе класса in-memory), MDM (master data management), программные системы статистического анализа, текстовая аналитика.

Егор Осипов, как представитель компании-интегратора, также высказывает немаловажную именно с практической точки зрения идею: «Сейчас Data Quality уже редко рассматривается как самостоятельная концепция. Data Quality — часть процесса Data Governance. И эта тенденция находит свое отражение в эволюции инструментов и в их интеграции».

Фактически ту же мысль озвучивает и Александр Тарасов: «Обеспечение качества данных невозможно без интеграции с остальными инструментами Data Governance: бизнес-глоссарием, каталогом данных для каталогизации метаданных. Первый поможет чётко определить бизнес-термины, второй — быстро находить данные и строить линеджи данных (показать их происхождение и в каких системах и отчётах они используются на разных этапах своего жизненного цикла)».

Иными словами, проблема качества данных в большинстве случаев остро обозначается тогда, когда перед бизнесом встают те или иные прикладные задачи, которые ныне определяют как управляемые данными (data driven). Соответственно для решения задач Data Quality рынок, с одной стороны, предлагает довольно обширный арсенал, с другой — в его составе непросто выделить программные средства, решающие исключительно задачи Data Quality. Да и вряд ли такое выделение имело бы реальный смысл.

Цифровая трансформация влияет на все

Говоря о методологиях и программной поддержке Data Quality, нельзя не сказать несколько слов о цифровой трансформации. Известно, что небезызвестные Data Scientists, равно как и другие специалисты, деятельность которых тесно сопряжена с цифровой экономикой, вынуждены уделять самое серьезное внимание качеству данных. Более того, эти задачи по мере повышения значимости технологий цифровизации даже в рамках одной компании могут стать кросс-функциональными, то есть решаемыми в контексте деятельности предприятия в целом. С другой стороны, непосредственно за качество информационного ресурса компании, особенно в случае его использования при решении традиционных задач управления бизнес-процессами, эти специалисты скорее всего ответственности не несут. Также важно, что количество и разнообразие используемых в бизнесе данных стремительно растут, при этом характерные для машинного обучения методы вполне могут мигрировать от своего рода «чистого» Data Science к ряду других задач корпоративной автоматизации, в том числе и к Data Quality.

«Появляется ряд относительно новых инструментов, например Data Lake, и они вполне могут быть полезными для поддержания необходимого уровня качества данных. А с новой технологией приходят и более специфические показатели, — утверждает Роман Стрекаловский, — Однако надо понимать, что принципы оценок при этом не меняются и зависят от важности тех или иных данных на предприятии, их жизненного цикла или, скажем, стоимости хранения».

Михаил Александров привел свои примеры использования новых методов при решении обсуждаемых нами проблем: «Применение различных алгоритмов машинного обучения позволяет быстро реагировать на изменяющуюся ситуацию. Например, статистические алгоритмы для выявления аномалий в данных позволяют быстро выявить проблемы в новом источнике без подготовки перечня бизнес-правил. Другой пример — использование текстовой аналитики для автоматической классификации данных или исправления ошибок».

Появление целого ряда новых методов в сфере Data Quality не отрицает и Владимир Рождественский, особо подчеркивая, что традиционные методы при этом никуда не исчезают.

«Методы оценки качества данных подвержены изменениям, как и сами данные. Со временем они модифицируются и эволюционируют, но в некоторых случаях трансформация методов оценки качества данных не успевает за изменениями в их структуре или объемах, — комментирует ситуацию Илья Калагин. — Выбор конкретного набора инструментов анализа также диктуется типом данных: для каждого типа существуют свои подходы как для анализа, так и для оценки качества. Эти подходы могут использовать теорию вероятностей и математическую статистику, также перспективны технологии искусственного интеллекта и машинного обучения. Это позволит модели подстраиваться под структуру оцениваемых данных в реальном времени и снизит временные затраты на создание и доработку технологий оценки качества данных».

Экономика Data Quality

Непременным вопросом, который возникает в бизнесе при внедрении чего бы то ни было, является экономический вопрос и формирование методик расчета стоимости. В контексте использования методологий его можно, например, поставить предельно упрощенно, так как он ставился пару десятилетий назад при массовом внедрении систем управленческого учета. То есть затраты на детализацию методики не должны как минимум превышать получаемого от этой детализации эффекта.

«Движение небольшими итерациями в процессе повышения качества данных помогает сопоставлять финансовые затраты с получаемым результатом. Такой подход позволит остановиться до того, как затраты превысят бизнес-эффект», — утверждает Владимир Рождественский.

Александр Тарасов же уверяет, что при использовании правильных подходов к проблеме Data Quality, что предполагает отношение к информационному ресурсу как к одному из активов компании, ситуация ухода в минус невозможна в принципе: «Важно понимать, какую часть бизнес-результата составит повышение качества конкретных данных. На основе этого и нужно определять KPI для качества данных, получаем бюджет под это и постоянно сопоставляем затраты и прибыль».

Больше конкретики вносит в этот вопрос Роман Стрекаловский: «В рамках методологии существует классическая классификация убытков, связанных с качеством данных: потери от ошибок в данных (Process Failure Costs), потери от неактуальности (Information Scarpand Rework), потери от отсутствия данных (Lostand Missed Opportunity Costs). Эти издержки могут быть прямыми, косвенными, стратегическими и тактическими. При качественном анализе издержек бизнес-аналитиками можно выявить не только необходимый бюджет для снижения этих издержек, но и составить детальный стратегический план по дальнейшему развитию и внедрению в KPI предприятия показателя качества данных».

«Оценить бизнес-эффект от внедрения Data Quality — достаточно сложная задача. Результатом внедрения может быть как повышение эффективности различных бизнес-процессов, так и предотвращение многих негативных ситуаций. Поэтому внедрение процессов управления качеством данных все чаще становится обязательным требованием регуляторов. Другим важным моментом является определение требований к качеству данных исходя из реальной бизнес-запросов компании, а не по принципу „чем выше качество, тем лучше“. Именно такой подход позволяет согласовать реальные потребности компании с затратами на обеспечение качества данных», — считает Михаил Александров.

Егор Осипов также скорее подчеркивает приоритетность четкой и одинаково понимаемой принципиальной бизнес-выгоды от внедрения перед необходимостью формирования каких-либо численных показателей оценки: «Можно привести аналогию с корпоративными хранилищами данных — для них не существует универсальных методик оценки окупаемости инвестиций. Здесь важно оценить влияние качества данных на бизнес-процессы компании и понять, каким образом их улучшение повысит эффективность и снизит издержки».

Интересен также взгляд Юрия Бондаря на экономический аспект проблемы: «Однозначно не следует управлять всеми данными в компании. В первую очередь необходимо подумать о преимуществах, которые получит бизнес в случае использования качественных данных. Как только ценность для бизнеса станет очевидной, можно определить перечень доменов данных, которыми необходимо управлять. По нашему опыту, обычно преимущества от качественных данных находятся в области аналитики, финансовой консолидации, нормативно-справочной информации. Это классические задачи, которые решает большинство наших клиентов. Есть новые области, в которых качество данных определяет бизнес-результат, в частности оснащение бизнес-систем интеллектуальными сервисами на основе машинного обучения. С другой стороны, серьезные затраты на обеспечение качества возникают тогда, когда этим вопросом долгое время никто не занимался. Это как долг, который накапливается, если его вовремя не возвращаешь. Если качество данных обеспечивается в момент создания, то дальше требуется лишь его поддерживать. А это стоит относительно недорого».

Печать Печать без изображений