С ростом неструктурированных больших данных появилась новая волна форм хранения данных, которые не всегда являются хранилищами данных (data warehouse), пишет на портале InformationWeek Мэри Шеклет, президент консалтинговой компании Transworld Data.
В условиях, когда объем мировых данных увеличивается до сотен зеттабайтов, управление данными становится критически важной задачей для CIO и компаний, которые теперь рассматривают данные как стратегический актив.
Чтобы использовать данные и управлять ими, ИТ-отделы инвестируют в инструменты управления данными и внедряют методики их импорта, очистки и хранения. Центральное место в этой деятельности занимает определение того, как будут храниться данные. Чем точнее ИТ-специалисты смогут определить характеристики способа хранения для того типа данных, с которым они имеют дело, тем лучше они смогут управлять этими данными.
С ростом неструктурированных больших данных, которые в настоящее время составляют около 80% всех корпоративных данных, находящихся в управлении, появилась новая волна средств хранения данных, которые не всегда используют хранилище данных. Новые формы хранения появились потому, что изменилось использование данных на предприятии. Это изменение заключается в переходе от структурированных данных в виде аккуратных записей фиксированной длины к более неструктурированным данным без фиксированной длины записи.
Ниже приведен перечень форм хранения данных, которые широко используются сегодня:
1. Иерархические и реляционные базы данных
Базы данных на старых корпоративных платформах, таких как мэйнфреймы, продолжают работать с иерархическими и реляционными структурами баз данных, которые являются зрелыми, надежными и проприетарными. Эти базы данных работают необычайно хорошо. Они поддерживаются целой армией программных утилит, которые обеспечивают целостность, безопасность, мониторинг данных и доступ к ним.
CIO предприятий продолжают работать с этими базами данных, потому что они проверены и являются лучшими в своем классе. С другой стороны, для поддержки этих БД требуется высококвалифицированный персонал, и ИТ-бюджеты должны предусматривать эти зарплаты.
По большей части проприетарные БД содержат структурированные данные SOR, но они также используются в аналитике больших данных, поскольку многие ключи и векторы больших данных для аналитики приходят из SOR.
2. Озера данных
Озера данных бывают разные. Их цель — хранить, защищать и предоставлять доступ к агрегированным комбинациям структурированных и неструктурированных данных, которые предназначены для конкретной области бизнеса. Примером может служить озеро маркетинговых и демографических данных о клиентах, которое используется для разработки целевых маркетинговых кампаний. Другой пример — медицинская информационная система, объединяющая записи и документацию о визитах пациентов, а также результаты МРТ-, рентгеновских и КТ-исследований.
Озеро данных — это закрытый репозиторий данных, не такой огромный, как иерархическая БД, но, тем не менее, питаемый притоком данных, которые могут поступать из иерархической БД или из внешнего источника данных (например, социальных сетей) либо из внутреннего источника неструктурированных данных (например, изображения и видеофайлы).
Цель состоит в том, чтобы предоставить озеро данных определенному кругу пользователей и периодически обновлять его из входящих источников, чтобы данные оставались свежими и актуальными. CIO поручают своим сотрудникам обеспечить наличие надлежащей практики работы с данными для каждого озера данных, которое поддерживается ИТ-отделом.
3. Потоки данных
Если озера данных представляют собой застойные резервуары данных, которые необходимо периодически обновлять за счет притока новых данных, то потоки данных — совсем наоборот. Это происходит потому, что данные в потоке находятся в постоянном движении, поэтому они никогда не устаревают.
Хорошим примером являются данные Интернета вещей (IoT), которые поступают от камер наблюдения, роботов, промышленного оборудования, беспилотников и т. д. За исключением журналов моментальной активности, которые необходимы для мониторинга, отладки и обеспечения безопасности системы, большинство данных потока являются преходящими. Их не нужно долго хранить в репозитории данных, но они требуют быстрой передачи от точки к точке для бизнес-операций, которые они поддерживают, и ИТ-отдел должен выделить на это бюджет.
4. Океаны данных
Океаны данных — это бассейны огромных, неизученных и необработанных данных, которые стекаются в него со всего предприятия. Компании хранят эти данные, потому что считают, что они могут пригодиться им в будущем. К сожалению, существует также высок риск того, что эти данные никогда не будут востребованы.
Данные в океане данных никогда не подвергались очистке или обработке, поэтому они сильно загрязнены и вряд ли позволят получить качественную аналитику. Поскольку океан данных продолжает расширяться, его содержание обходится все дороже, и управлять им становится все сложнее. Ключевым моментом в управлении этими данными является определение того, как долго вы хотите их хранить? Если это куча электронных писем, то, возможно, вы захотите хранить их для целей юридического раскрытия информации, если компания когда-нибудь вступит в судебный процесс. Если это куча IoT-флуктуаций или данные, оставшиеся от старых тестовых систем, лучше выбросить их. В любом случае, для управления океанами данных необходимо разработать четкую ИТ-политику и практику.