С неструктурированными и полуструктурированными данными связаны растущие объемы производственных рабочих нагрузок, которые имеют свои собственные потребности в аппаратных средствах хранения — файловых и объектных — включая флэш-память, сообщает портал ComputerWeekly.

По оценкам IDC, к 2025 г. до 80% деловой информации, вероятно, будет представлено неструктурированными данными.

И хотя термин «неструктурированные» может показаться неверным, поскольку все файлы имеют некие метаданные, по которым их можно искать и упорядочивать, в руках предприятий находятся огромные объемы таких данных.

Ниже мы рассмотрим особенности работы с неструктурированными данными и хранилище — обычно файловое или объектное — которое им требуется.

В прошлом изображения, голосовые записи, видео, журналы чатов и документы различных типов были в основном лишь обузой для хранения и головной болью для тех, кому нужно было управлять ими, организовывать их и обеспечивать их безопасность.

Но теперь неструктурированные данные рассматриваются как ценный источник деловой информации. С помощью аналитической обработки из них можно извлечь ценность — например, можно запустить ИИ/МО-обработку наборов рекламных изображений и сопоставить то, что видят посетители сайта, с тем, на что они кликают. Анализ неструктурированных данных изображений позволяет создавать структурированные поля, которые могут служить основой для принятия редакторских решений.

С другой стороны, резервные копии, которые долгое время хранились в пыльных и труднодоступных ленточных архивах, теперь рассматриваются как потенциальный источник данных для аналитической обработки. А поскольку угроза вымогательского ПО никуда не делась, необходимость резервных копий для восстановления актуальна как никогда.

Структурированные, неструктурированные, полуструктурированные

Неструктурированные данные, в широком смысле, — это данные и информация, которые не соответствуют заранее определенной модели данных — другими словами, информация, которая создается и живет вне реляционной базы данных.

Бизнес-информация, создаваемая системами, скорее всего, будет структурированной: типичными примерами являются данные о клиентах и продуктах, номера заказов, уровни запасов и информация об отгрузках, создаваемая системой продаж и хранящаяся в ее базовой базе данных.

Это, скорее всего, базы данных SQL, сконфигурированные по табличной схеме и с данными, хранящимися в строках и столбцах, что позволяет очень быстро записывать данные и выполнять запросы к ним с очень хорошей транзакционной целостностью. Базы данных SQL лежат в основе наиболее производительных и критически важных приложений.

Неструктурированные/полуструктурированные

Неструктурированные данные часто создаются людьми и включают в себя электронную почту, сообщения в социальных сетях, голосовые записи, изображения, видео, заметки и документы, такие как PDF.

Как уже упоминалось, большинство неструктурированных данных можно назвать полуструктурированными, и хотя они не хранятся в базе данных — в принципе, это возможно — в их метаданных есть определенная структура. Например, изображение доставленного товара, на первый взгляд, будет неструктурированным, хотя метаданные из файлов камеры делают его полуструктурированным.

Кроме того, существуют файлы резервного копирования, в которых все данные организации копируются, сжимаются, шифруются и упаковываются в (обычно проприетарный) формат поставщика инструмента резервного копирования.

Тот факт, что резервные копии объединяют все типы данных, делает их проблемой неструктурированных данных, которая, возможно, приобретает еще большую актуальность в связи с ростом угроз вымогателей.

Потребности в хранении неструктурированных и полуструктурированных данных

Как мы уже видели, неструктурированные данные более или менее определяются тем, что они создаются не с помощью базы данных. Может случиться так, что на более поздних этапах жизни к неструктурированным данным применяется больше структуры, и затем они становятся чем-то другим.

Здесь мы рассмотрим основные требования к инфраструктуре хранения неструктурированных данных. К ним относятся:

  • Объем. Обычно неструктурированных данных много, поэтому емкость является ключевым требованием.
  • Файловое и/или объектное хранилище. Блочное хранение предназначено для баз данных, и, как мы видели, это просто не является требованием для сценариев использования неструктурированных данных. Файловые (NAS) и объектные хранилища удовлетворяют потребности.
  • Производительность. Исторически этот вопрос не стоял на повестке дня, но с учетом необходимости аналитики реального времени и быстрого восстановления после кибератак, он становится все более важным.

Облако и неструктурированные данные

С учетом этих требований облачное хранилище, казалось бы, вполне подходит в качестве места для хранения неструктурированных данных. Однако потенциально есть несколько моментов, которые работают против этого.

Облачное хранилище обеспечивает объектное (в подавляющем большинстве случаев, с точки зрения объема) и файловое хранение, поэтому оно потенциально хорошо подходит в этом отношении.

Облачное хранилище также может предоставлять необходимую емкость, и вполне возможно, что данные можно хранить в облаке в больших объемах чрезвычайно экономически эффективным способом. Но обычно затраты могут быть очень низкими только в том случае, если к данным не осуществляется доступ, так что это первый потенциальный недостаток облачного хранилища.

Итак, облако очень хорошо для холодных данных, но любой вид ввода-вывода начинает увеличивать затраты. Однако это может быть приемлемо в зависимости от размера и требований к доступу вашей рабочей нагрузки. Идеальным вариантом будут небольшие наборы данных или те, к которым требуется редкий доступ.

Объектное и файловое хранилище на месте

Кластерные NAS и объектные хранилища хорошо подходят для хранения очень больших объемов неструктурированных данных. Объектное хранилище даже лучше подходит для больших объемов данных благодаря своей превосходной способности к масштабированию.

Файловое хранение основано на файловой системе и древовидной иерархической структуре. Это может приводить к снижению производительности при обходе файловой системы. Объектное хранение, напротив, основано на плоской структуре, где объекты/файлы имеют уникальный идентификатор, облегчающий доступ.

Хранение на месте может снять опасения по поводу безопасности данных и их доступности, а также может оказаться менее затратным, чем размещение данных в облаке.

Любой набор протоколов — файловый и объектный — хорошо подходит для хранения неструктурированных данных.

Добавьте флэш-память для быстрого доступа

Вполне возможно построить файловое и объектное хранилище с адекватной производительностью на месте, используя вращающиеся диски. При удовлетворении необходимой емкости жесткий диск часто является наиболее экономичным вариантом.

Однако прогресс в производстве флэш-памяти привел к появлению твердотельных накопителей высокой емкости, и производители массивов хранения начали использовать их в оборудовании, поддерживающем файловое и объектное хранение.

Речь о флэш-памяти QLC (четырехуровневая ячейка). Она включает четыре уровня двоичных переключателей в ячейки флэш-памяти, что обеспечивает более высокую плотность хранения и, соответственно, более низкую стоимость хранения одного гигабайта, чем любая другая флэш-память, используемая в настоящее время.

Однако компромисс, связанный с QLC, заключается в том, что срок службы такой флэш-памяти может быть пониженным, поэтому она лучше подходит для больших объемов данных, к которым реже обращаются.

Высокая скорость флэш-памяти особенно хорошо подходит для неструктурированных данных, например, в аналитике, где требуется быстрая обработка и, следовательно, ввод-вывод, а также в случаях, когда клиенты могут захотеть восстановить большие массивы данных из резервных копий, например, в случае атаки вымогателей.