Никогда еще проблемы больших данных — как их хранить, как ими управлять, как администрировать и использовать — не были столь актуальны, в первую очередь из-за стремительного роста применения искусственного интеллекта. Что принесут нам большие данные в новом году? Своими прогнозами на эту тему делятся опрошенные порталом Datanami эксперты.

Дэйв Стоукс, технологический евангелист компании Percona, провайдера баз данных, предвидит рост интереса к векторным базам данных. Однако он не продлится бесконечно. «Векторные базы данных станут новым горячим предметом обсуждения для многих, но через несколько лет они будут поглощены реляционными базами данных, — полагает он. — Каждые 10 или около того лет объявляется, что некая „новая“ технология баз данных станет концом реляционных баз данных, и разработчики вскакивают на эту волну, только чтобы вновь обнаружить, что реляционная модель чрезвычайно гибкая, и поставщики реляционных баз данных могут легко адаптировать новые технологии в свои продукты».

Существование разрозненных хранилищ данных по-прежнему является проблемой для инженеров по данным. Но, по словам Молли Пресли, старшего вице-президента по маркетингу компании Hammerspace, 2024-й принесет проблеск надежды, поскольку на первый план выйдет централизованная форма оркестровки данных. «Организации начнут отходить от принципа „храни и копируй“ и переходить в мир оркестровки данных, — говорит она. — Благодаря развитию ИИ сегодня существуют надежные инструменты для анализа данных и извлечения действенных инсайтов. Однако инфраструктура хранения файлов не успевает за этими достижениями. В отличие от решений, которые пытаются управлять хранилищами и распределенными средами, перемещая копии файлов из одного места в другое, оркестровка данных помогает организациям интегрировать данные в единое пространство имен из разных хранилищ и мест и автоматизировать размещение данных там и тогда, где и когда они наиболее ценны, что упрощает их анализ и извлечение инсайтов».

Большинство данных, которые мы храним, являются неструктурированными. По мере накопления они становятся настоящей проблемой, но 2024-й принесет новые способы управления ими, говорит Ананд Бабу Периасами, соучредитель и генеральный директор компании MinIO. «В 2024 г. мы увидим взрывной рост объема действительно неструктурированных данных (аудио, видео, записи совещаний, переговоры, презентации), поскольку приложения ИИ начнут работать. Это очень полезный с точки зрения обучения ИИ контент, и его сбор в озеро ИИ-данных значительно повысит интеллектуальный потенциал предприятия в целом, но также создаст уникальные проблемы, — говорит он. — Существуют определенные проблемы с поддержанием производительности при работе с десятками петабайт. Как правило, их невозможно решить с помощью традиционных решений SAN/NAS — для этого необходимы атрибуты современного высокопроизводительного объектного хранилища. Именно поэтому большинство технологий ИИ/МО (например, OpenAI, Anthropic, Kubeflow) используют объектные хранилища, и именно поэтому большинство баз данных переходят на объектное хранение».

По данным Forrester, объем неструктурированных данных, которыми управляют предприятия, удвоится в 2024 г., что открывает новые потенциально прибыльные возможности для ИИ. «Руководители по всему миру, принимающие решения в области данных и аналитики, говорят, что только 27% управляемых их организациями данных являются неструктурированными, — отмечает аналитическая группа. — Генеративный ИИ удвоит этот показатель, поскольку компании будут внедрять более разговорный опыт для клиентов и сотрудников. Предприятия будут пытаться хранить, анализировать и осмысливать этот поток неструктурированных данных. Эта тенденция проявится в области конвейеров данных, где 80% новых конвейеров, созданных в 2024 г., будут предназначены для сбора, обработки и хранения неструктурированных данных».

По словам Джеффа Хеллера, вице-президента по технологиям и операциям компании Faction, в 2024 г. многие предприятия по всему миру будут внедрять архитектуру «данные в первую очередь» («data-first»), чтобы упростить свои стратегии управления данными. «Компании переживают смену парадигмы: они либо выбирают одно облако, либо меняют архитектуру для удовлетворения своих потребностей, — говорит он. — В 2024-м организациям придется задуматься о том, какой тип облака лучше всего им подходит, чтобы максимально эффективно использовать свои данные. Решения, принимаемые на основе краткосрочных целей, а не долгосрочного роста, приведут к локапу (заморозке) данных. Данные должны быть точными и доступными, чтобы принимать своевременные решения. Управление данными становится для организаций все более сложным. Необходимость в эффективной стратегии управления данными имеет первостепенное значение. Предприятия будут обращаться к решениям, которые обеспечивают доступ к единому набору данных из удобного места во всех облаках, гарантируя точность данных и повышение эффективности».

По словам Киарана Дайнеса, директора по продуктам компании Matillion, специализирующейся на конвейерах данных, ИИ-революция затрагивает все сферы жизни, в том числе и управление большими данными. «За последнее десятилетие роль инженера по данным радикально расширилась, — говорит он. — 2024-й станет годом, когда технологические компании упростят им жизнь. На рынке появятся инструменты, которые будут интегрированы в существующие платформы и позволят добавить генеративный ИИ в существующие конвейеры данных с возможностью развертывания этих моделей внутри компании, чтобы пользователи могли взаимодействовать с ними вживую, как они это уже делают с ChatGPT. Кроме того, в следующем году резко вырастет спрос на переподготовку инженеров по данным, которым потребуется овладеть навыками инженерии подсказок, точной настройки ИИ-моделей и значительного повышения их производительности. Их жизнь станет намного интереснее».

Насколько высоко вы цените инженеров по данным? По словам Джеффа Холлана, директора по управлению продуктами компании Snowflake, в 2024 г. вы будете ценить их еще больше. «Было много разговоров о том, что ИИ заменит роль инженера по данным, — говорит он. — Это не тот случай, и на самом деле их знания и опыт в области данных будут важны как никогда — просто в новых и иных формах. Чтобы идти в ногу с развивающимся ландшафтом, инженеры по данным должны понимать, как генеративный ИИ добавляет ценность. Созданные и управляемые ими конвейеры данных, станут, возможно, первым местом, где организации смогут установить связь с большими языковыми моделями (LLM) для извлечения выгоды. Именно инженеры по данным будут понимать, как использовать модель и подключить ее к конвейеру данных, чтобы автоматизировать процесс извлечения ценности. Они также должны будут контролировать и понимать работу ИИ».

Вам может казаться, что ваши данные вышли из-под контроля, когда ими управляет сторонняя компания в облаке. По прогнозам Питера Шафтона, технического директора компании Ngrok, 2024-й станет годом, когда вы сможете вернуть контроль над своими данными. «Управление данными значительно сместится в сторону большей доступности и контроля, — говорит он. — Если в прошлом десятилетии наблюдалось стремительное развитие облачных решений для работы с данными, то теперь маятник качнулся в сторону более самостоятельного управления. Причина этого сдвига двояка: конфиденциальность и экономическая эффективность. Постоянная угроза утечки данных и необходимость более строгого контроля доступа заставляют компании опасаться полагаться исключительно на внешние облачные платформы. Кроме того, непредсказуемость затрат на хранение и обработку данных в облаке заставляет организации искать более предсказуемые и экономически эффективные решения. Этой тенденции также способствует распространение доступных и удобных инструментов управления данными, которые часто возникают на основе Open Source-решений, разработанных такими технологическими гигантами, как Uber, Netflix и Airbnb».

Термин «интеллектуальное управление данными» («data intelligence») уже несколько лет используется для обозначения набора инструментов, которые организации используют для оперирования своими данными. По словам Джима Лиддла, директора по инновациям компании Nasuni, следующие 12 месяцев станут решающими для этой концепции. «Шокирующее количество компаний хранят огромные объемы данных просто потому, что не знают, что в них содержится и нужны ли они им, — говорит он. — Являются ли данные точными и актуальными? Правильно ли они классифицированы и доступны для поиска? Соответствуют ли они требованиям? Содержат ли они персонально идентифицируемую информацию, защищенную медицинскую информацию или другую конфиденциальную информацию? Доступны ли они по требованию или архивированы? В наступающем году компаниям придется адаптироваться к требованиям к качеству, управлению, доступу и хранению данных, предъявляемым ИИ, прежде чем они смогут приступить к реализации программ цифровой трансформации или усовершенствованиям, которые обеспечат им желаемое конкурентное преимущество».

Если вы не сможете обеспечить качество и целостность своих данных, то можете попрощаться с планами на генеративный ИИ, говорит Армон Петросян, генеральный директор и соучредитель компании Coalesce. «В 2024 г. в технологическом ландшафте произойдет трансформационный сдвиг: данные превратятся из ценного актива в источник жизненной силы процветающих предприятий, — говорит он. — Организациям, которые упускают из виду качество, целостность и происхождение данных, будет сложно не только принимать обоснованные решения, но и реализовывать весь потенциал генеративного ИИ, LLM и MО-приложений и сценариев использования. По моим прогнозам, в будущем году организациям, пренебрегающим созданием надежных основ и стратегий работы с данными, будет все сложнее оставаться на плаву в стремительно развивающейся технологической отрасли. Те, кто не сумеют адаптироваться и уделить первостепенное внимание основам работы с данными, будут испытывать трудности в конкурентной борьбе и даже рискуют не выжить».

Проблема отслеживания родословной данных также остается актуальной. В 2024 г. на помощь придет блокчейн, прогнозирует Ешвант Мумманени, главный инженер по облачным технологиям Altair. «Поскольку модели ИИ/МО играют ключевую роль в принятии важнейших решений, независимо от того, контролируются ли они человеком или полностью автономны, происхождение/родословная модели становится критически важным аспектом, — говорит он. — Лежащая в основе блокчейна технология, обеспечивающая неизменяемость записей, цифровые идентификаторы, подписи и проверки с помощью криптографии, станет ключевым аспектом корпоративного ИИ для обеспечения подтверждения подлинности моделей».

Еще один тренд в области больших данных, который будет расти, как кристаллы льда в холодную зимнюю ночь, это синтетические данные, считает Спирос Потамитис, старший менеджер по аналитическим продуктам компании SAS. «Синтетические данные получат широкое распространение, поскольку организации сталкиваются с ужесточением нормативных требований, а трансграничный обмен конфиденциальными данными становится все более сложным, — говорит он. — Синтетические данные могут с высокой точностью передавать статистические свойства исходного источника данных, что позволяет преодолевать нормативные барьеры и открывать инновации для организаций».

2024-й станет годом, когда администрирование данных «сдвинется влево», полагает генеральный директор ALTR Джеймс Бичем. «Организации будут внедрять меры по администрированию данных и обеспечению их безопасности на более ранних этапах пути данных, еще до облачного хранилища, что позволит не только защитить конфиденциальную информацию, но и повысить общее качество собираемых данных, — говорит он. — В связи с увеличением количества нормативных актов, касающихся конфиденциальности и безопасности данных, компании, которые уделяют первостепенное внимание администрированию и обеспечению безопасности данных на ранних этапах, будут лучше подготовлены к соблюдению этих норм. Они смогут задействовать мощные средства управления доступом к данным и безопасности данных, доступные в облачных хранилищах и озерах-хранилищах данных, и распространить их на данные вплоть до их выхода из источников».

В 2023 г. «сетка данных» (data mesh) как бы отошла на второй план по сравнению с другими технологическими трендами (в первую очередь генеративным ИИ), но в 2024-м преимущества data mesh станут слишком очевидными, чтобы их игнорировать, считает Анхель Винья, генеральный директор Denodo. «2024 г. станет поворотным для восхождения сетки данных, которая учитывает распределенную природу данных, — говорит он. — В этой концепции роль ИТ-отдела смещается в сторону обеспечения основы для работы доменов данных, то есть создания и распространения продуктов данных по всему предприятию. Поворотным моментом станет осознание того, что к продуктам данных следует относиться с той же степенью важности, что и к любому другому предлагаемому продукту... В эту эпоху, ориентированную на данные, недостаточно просто привлекательно упаковывать данные; организациям необходимо улучшать весь опыт конечного пользователя».