Операции искусственного интеллекта могут предъявлять различные требования к системам хранения данных при обучении, выводе и т. д. Портал ComputerWeekly рассматривает системы NAS и SAN и объектные хранилища для ИИ и то, как сбалансировать их в ИИ-проектах.

ИИ опирается на огромные объемы данных.

Предприятиям, которые берутся за ИИ-проекты, особенно в области больших языковых моделей (LLM) и генеративного ИИ (GenAI), необходимо собирать большие объемы данных для обучения моделей, а также для хранения результатов работы ИИ-систем.

Однако эти данные вряд ли будут храниться в одной системе или в одном месте. Клиенты будут использовать множество источников данных, включая структурированные данные в базах данных и часто неструктурированные данные. Некоторые из этих источников информации будут располагаться онпремис, а другие — в облаке.

Чтобы справиться с жаждой ИИ к данным, системным архитекторам необходимо обратить внимание на хранение данных в сетях хранения (SAN), сетевых хранилищах (NAS) и, возможно, объектных хранилищах.

Ниже рассмотрены плюсы и минусы блочных, файловых и объектных хранилищ для ИИ-проектов, а также проблемы поиска их правильного сочетания для организаций.

Гора данных ИИ

Современное поколение ИИ-проектов редко, если вообще когда-либо, характеризуется одним источником данных. Вместо этого модели GenAI опираются на широкий спектр данных, в большинстве своем неструктурированных. К ним относятся документы, изображения, аудио- и видеозаписи, компьютерный код и многое другое.

Когда речь идет об обучении LLM, чем больше источников данных, тем лучше. Но в то же время предприятия связывают LLM со своими собственными источниками данных либо напрямую, либо с помощью генерации с расширенным поиском (RAG), что повышает точность и релевантность результатов. Этими данными могут быть документы, но могут быть и данные корпоративных приложений, хранящиеся в реляционной базе данных.

«Большая часть ИИ основана на неструктурированных данных, поэтому приложения обращаются к файлам, изображениям, видео, аудио — ко всем неструктурированным данным, — говорит Патрик Смит, технический директор компании Pure Storage в регионе EMEA. — Но люди также смотрят на свои производственные наборы данных и хотят связать их с проектами GenAI».

Это, добавляет он, включает в себя добавление векторизации в базы данных, что обычно поддерживается основными поставщиками реляционных баз данных.

NAS и SAN

Для системных архитекторов, поддерживающих проекты ИИ, возникает вопрос о том, где лучше всего хранить данные. Самым простым вариантом было бы оставить источники данных как есть, но это не всегда возможно.

Это может быть связано с тем, что данные нуждаются в дальнейшей обработке, приложение ИИ необходимо изолировать от производственных систем или текущие системы хранения не обладают достаточной пропускной способностью, которая требуется ИИ-приложению.

Кроме того, векторизация обычно приводит к значительному увеличению объемов данных — здесь нет ничего необычного в 10-кратном увеличении, — и это повышает требования к производственным системам хранения.

Это означает, что хранилище должно быть гибким и способным к масштабированию, а требования к обработке данных в ИИ-проектах различаются на разных этапах. Обучение требует больших объемов исходных данных, а получение выводов — запуск модели в производство — может не нуждаться в таком количестве данных, но требует более высокой пропускной способности и минимальных задержек.

Предприятия, как правило, хранят большую часть неструктурированных данных в NAS-хранилищах с файловым доступом. Преимуществами NAS являются относительно низкая стоимость, простота управления и масштабирования по сравнению с такими альтернативами, как системы хранения данных с прямым подключением (DAS) или системы SAN с блочным доступом.

Структурированные данные чаще всего хранятся в блочных хранилищах. Обычно это SAN, хотя для небольших ИИ-проектов может быть достаточно хранилища DAS.

В этом случае достижение наилучшей производительности — в плане IOPS и пропускной способности массива хранения — компенсирует бóльшую сложность NAS. Корпоративные производственные системы, такие как системы планирования ресурсов предприятия (ERP) и управления взаимоотношениями с клиентами (CRM), используют SAN или DAS для хранения своих данных в файлах баз данных. Таким образом, на практике данные для ИИ, скорее всего, будут взяты из сред SAN и NAS.

«Данные для ИИ могут храниться как в NAS, так и в SAN. Все зависит от того, каким образом инструменты ИИ хотят или должны получать доступ к данным, — говорит Брюс Корнфельд, директор по продуктам компании StorMagic. — Можно хранить данные ИИ в SAN, но инструменты ИИ обычно не будут считывать блоки. Для доступа к блочным данным они будут использовать протокол доступа к файлам».

Совсем не обязательно, что один протокол будет лучше другого. Это во многом зависит от характера источников данных и результатов работы системы ИИ.

Для системы ИИ, работающей в основном с документами или изображениями, NAS может быть достаточно быстрым решением. Для таких приложений, как автономное вождение или видеонаблюдение, системы могут использовать SAN или даже высокоскоростные локальные хранилища.

Архитекторам данных необходимо различать этапы обучения и формирования выводов в своих проектах и учитывать, не перевешивают ли накладные расходы на перемещение данных между системами хранения преимущества в производительности, особенно при обучении.

Особенности объектного хранилища

Это заставило некоторые организации обратить внимание на объектное хранилище как на способ объединения источников данных для ИИ. Объектные хранилища все чаще используются предприятиями, причем не только в облаках — локальные объектные хранилища также завоевывают рынок.

Объектное хранилище имеет ряд преимуществ для ИИ, не в последнюю очередь это плоская структура и глобальное пространство имен, (относительно) низкие накладные расходы на управление, простота расширения и низкая стоимость.

Однако производительность не является сильной стороной объектных хранилищ. Из-за этого оно больше подходит для таких задач, как архивирование, чем для приложений, требующих низких задержек и высокой пропускной способности данных.

Однако поставщики работают над устранением разрыва в производительности. Pure Storage и NetApp предлагают системы хранения, которые могут работать с файлами, объектами и, в некоторых случаях, блоками. К ним относятся FlashBlade от Pure и оборудование под управлением операционной системы хранения OnTap от NetApp. Эти технологии предоставляют менеджерам систем хранения гибкость в использовании лучших форматов данных, избавляя их от создания изолированных систем, привязанных к конкретному оборудованию.

Другие компании, например Hammerspace с ее Hyperscale NAS, стремятся выжать дополнительную производительность из оборудования, на котором работает сетевая файловая система (NFS). Это, по их мнению, позволяет избежать узких мест, когда хранилище не успевает за требовательными к данным графическими процессорами (GPU).

Галочки по всем пунктам

Но пока не появятся более производительные объектные системы хранения или пока предприятия не перейдут на универсальные платформы хранения, для ИИ, скорее всего, будут в комбинации использовать NAS, SAN, объектные хранилища и даже DAS.

При этом баланс между элементами, скорее всего, будет меняться в течение жизни ИИ-проекта, а также по мере развития ИИ-инструментов и приложений.

Смит видит запросы заказчиков на новое оборудование для работы с неструктурированными данными, в то время как требования к блочным и векторным базам данных большинство клиентов могут удовлетворить на существующем оборудовании. «Все, что делает генеративный ИИ, связано с пониманием взаимосвязей, — говорит он. — Исходные данные по-прежнему находятся в неструктурированном виде, будь то файлы или объекты, а векторные данные — в блочном виде».