Помните фотографии с отпуска, которые хранятся в вашем телефоне? Возможно однажды вы захотите увидеть их снова или отправить кому-нибудь, но, скорее всего, они так и будут просто занимать место в памяти вашего устройства. Через некоторое время наступает день, когда их становится настолько много, что вы не представляете, что там хранится из-за огромного количества файлов.

То же самое происходит с компаниями, но в большем масштабе. Данные собираются и сохраняются каждый день, и на серверах хранится огромное количество бесполезной информации. Это то, что принято называть «темными» данными. Среди них сведения, которые скрываются в сообщениях электронной почты, корпоративных договорах, материалах презентаций и других «сырых» текстовых документах. Фото-, аудио- и видеофайлы — другой массив данных, который может служить ценным источником информации, и, следовательно, идей для бизнеса компании. Gartner определяет их как информационные активы, которые организации собирают, обрабатывают и хранят во время коммерческой деятельности, но обычно не используют для других целей, таких как аналитика, польза для бизнеса или прямая монетизация.

Хранение и защита неиспользуемых данных часто влечет за собой расходы, а иногда и больший риск, чем их ценность. Они могут грозить штрафами, поскольку вы не знаете, что храните, и среди огромного количества данных могут затеряться и незаконные. Исследователи Gartner предсказывают, что к 2021 году более 80% компаний не будут соответствовать требованиям законодательства из-за «темных» данных.

Существование таких данных нельзя игнорировать. По данным колледжа Хайнца Университета Карнеги-Меллон, около 90% корпоративной информации попадает в категорию «темных», так как организации обычно хранят эти данные только в целях соблюдения нормативных требований. Согласно Deloitte, общепринятое количество «темных» данных в компаниях давно известно, как «правило 80%», хотя по последним подсчетам эта цифра уже приближается к 90%.

Эти сведения не должны использоваться только в целях регулирования и соблюдения требований. Они могут быть весьма полезны для людей, ответственных за принятие решений в компаниях. В этом случае анализ данных имеет фундаментальное значение. Например, венчурные капиталисты с помощью анализа сырых данных могут получить более точное представление о том, как лучше распорядиться инвестициями в будущем, а специально программы аудиоанализа помогут диагностировать сбои в работе промышленного оборудования.

Знание того, какие именно данные релевантны и должны храниться, может непосредственно влиять на расходы компании. Более того, превращение этих данных в полезную информацию — это еще один момент, который необходимо принимать во внимание.

Как избежать «темных» данных

Согласно результатам глобального исследования качества данных, которое провела компания Serasa Experian в 2019 году, 95% компаний считают, что низкое качество данных в бизнесе негативно влияет на взаимодействие с потребителями, репутацию и эффективность деятельности. Таким образом, становится ясно, что лучший способ справиться с ситуацией — это начать анализировать данные до их хранения, и чем быстрее эта информация структурируется, тем быстрее можно узнать, что должно быть доступно, а что — храниться.

Однако возможен и более поздний анализ. Миллиарды файлов, которые хранятся во многих компаниях, невозможно проанализировать вручную, но для этого есть несколько инструментов, которые могут управлять данными с помощью передовых технологий, таких как флэш, искусственный интеллект и машинное обучение. Искусственный интеллект позволит автоматизировать большую часть каталогизации и даже порекомендует специалистам данные, на которые стоит обратить внимание при анализе. Они классифицируют то, что может быть использовано, и устранят то, что не приносит пользы компании.

Кроме того, существуют информационные системы по управлению корпоративной информацией (ECM), которые используют метаданные, и способны избавить компанию от «темных» данных. Добавляя атрибуты или теги к каждому файлу, ECM-решение определит информацию, которая связана с другим контентом. Такое управление информацией необходимо для бизнеса, поскольку обеспечивает интеллектуальный доступ к самому ценному активу компании и поддерживает его непрерывность, предоставляя важные инструменты для принятия решений по мере продвижения данных.

Автор статьи — технический директор Pure Storage.