Кому-то может не нравиться термин «большие данные» (Big Data), но он сохраняет свою актуальность. Управлять огромными объемами разнообразных, быстро перемещающихся и постоянно меняющихся данных всегда непросто, поэтому организации всех мастей тратят так много времени и усилий на создание и внедрение технологий, которые могут сделать управление данными хотя бы немного менее болезненным. Портал BigDATAwire приводит обзор связанных с большими данными технологий, на которые стоит обратить внимание во второй половине нынешнего года.
Первые шесть месяцев 2025 г. на фоне барабанного боя о все более близких прорывах в области искусственного интеллекта продемонстрировали жизненную важность управления большими данными. Вот 10 лучших технологий работы с большими данными, за которыми стоит следить во втором полугодии:
1. Apache Iceberg и OTF
Динамика развития Apache Iceberg продолжает расти после прорывного 2024 г., когда открытый формат таблиц (OTF) стал стандартом де-факто. Организации хотят хранить свои большие данные в объектных хранилищах, то есть в озерах-хранилищах данных (data lakehouses), но не хотят отказываться от качества и контроля, к которым они привыкли в менее масштабируемых реляционных базах данных. Iceberg, по сути, позволяет им получить пирог с большими данными и съесть его тоже.
Как раз когда казалось, что Iceberg выбил Apache Hudi и Delta Lake из борьбы за доминирование в формате таблиц, на арену вышел еще один конкурент: DuckLake. Люди из DuckDB выпустили DuckLake в конце мая, чтобы представить еще одну точку зрения на этот вопрос. Суть их предложения такова: если Iceberg требует базы данных для управления некоторыми метаданными, почему бы просто не использовать базу данных для управления всеми метаданными?
Люди, стоящие за Iceberg и его каталогом метаданных Apache Polaris, возможно, прислушались. В июне появилась информация о том, что эти Open Source-проекты рассматривают возможность упрощения хранения метаданных путем создания спецификации для сканирования API, которая была описана, но не реализована. Изменения, которые могут быть внесены в Apache Iceberg версии 4, позволят использовать преимущества более интеллектуальных механизмов запросов, таких как Spark, Trino и Snowflake, а также прямой экспорт данных из озер-хранилищ Iceberg.
2. Postgres, Postgres повсюду
Кто бы мог подумать, что самая популярная база данных 2025 г. уходит своими корнями в
Мания Postgres ярко проявилась в мае, когда Databricks выложила 1 млрд. долл. за покупку Neon, стартапа Никиты Шамгунова, разработавшего бессерверную и бесконечно масштабируемую версию Postgres. Несколько недель спустя Snowflake нашла 250 млн. долл., чтобы купить Crunchy Data, которая более 10 лет создавала хостинговый сервис Postgres.
Общая тема, прослеживающаяся в обоих этих приобретениях из сферы больших данных, — это ожидание увеличения количества и масштабов агентов ИИ, которые Snowflake и Databricks будут развертывать от имени своих клиентов. Этим агентам потребуется база данных, которую можно быстро увеличить для решения различных задач с данными и так же быстро уменьшить и удалить. Для этого вам не нужна какая-то новая модная база данных; вам нужна самая надежная, хорошо понятная и дешевая база данных в мире. Другими словами, вам нужна Postgres.
3. Подъем унифицированных платформ данных
Идея унифицированных платформ данных набирает обороты на фоне развития ИИ. Эти системы, как утверждается, предназначены для создания экономически эффективных, сверхмасштабируемых платформ, на которых организации могут хранить огромные объемы данных (измеряемые петабайтами и экзабайтами), обучать массивные модели ИИ на огромных кластерах GPU, а затем развертывать рабочие нагрузки ИИ и аналитики со встроенными возможностями управления данными в придачу.
VAST Data, которая недавно анонсировала свою «операционную систему» для ИИ, создает такую унифицированную платформу данных. Как и ее конкурент WEKA, которая в прошлом месяце запустила NeuralMesh, контейнерную архитектуру, объединяющую данные, системы хранения, вычисления и сервисы ИИ. Еще один претендент — Pure Storage, которая недавно запустила свое облако корпоративных данных. Среди других компаний, рассматривающих возможность создания унифицированных платформ данных, — Nutanix, DDN, Hitachi Vantara и др.
Поскольку гравитация данных продолжает смещаться от облачных гигантов в сторону распределенных и локальных развертываний колокейшн-систем хранения и вычислений на GPU, ожидается, что такие специализированные платформы для работы с большими данными будут только размножаться.
4. Агентный ИИ, модели рассуждений и MCP
В настоящее время мы наблюдаем, как революция генеративного ИИ (GenAI) перерастает в эру агентного ИИ. К настоящему моменту большинство организаций имеют представление о возможностях и ограничениях больших языковых моделей (LLM), которые отлично подходят для создания чат-ботов и копи-ботов. По мере того как мы доверяем ИИ делать больше, мы наделяем его полномочиями. Или, другими словами, мы создаем агентный ИИ.
Многие поставщики инструментов для работы с большими данными внедряют агентный ИИ, чтобы помочь своим клиентам решать больше задач. Они используют агентный ИИ для мониторинга потоков данных и предупреждений безопасности, а также для выработки рекомендаций по преобразованию данных и принятию решений по контролю доступа пользователей.
Многие из этих новых рабочих нагрузок агентного ИИ опираются на новый класс моделей рассуждений, таких как DeepSeek R-1 и OpenAI GPT-4o, которые могут решать более сложные задачи. Чтобы предоставить агентам ИИ доступ к необходимым им данным, поставщики инструментов используют Model Context Protocol (MCP) — новый протокол, который компания Anthropic выпустила менее года назад. Это очень активное пространство, и нас здесь ждет еще много интересного, так что следите за развитием событий.
5. Независимый семантический слой
ИИ-революция затрагивает все уровни стека данных и в некоторых случаях заставляет нас задаться вопросом, почему вещи построены определенным образом и как их можно построить лучше. Одним из слоев, которые охватывает ИИ, является так называемый семантический слой, который традиционно функционирует как своего рода переводчик, принимающий таинственные и технические определения данных, хранящихся в хранилище данных, и переводящий их на естественный язык, понятный и потребляемый аналитиками и другими пользователями BI и аналитических инструментов.
Обычно семантический слой реализуется в рамках BI-проекта. Но поскольку прогнозируется, что внедрение ИИ приведет к огромному росту числа SQL-запросов, отправляемых в хранилища данных организаций или другие унифицированные базы данных записей (т. е. озера-хранилища), семантический слой внезапно оказывается в центре внимания как важнейший элемент, обеспечивающий получение правильных ответов на SQL-запросы, выполняемые с помощью ИИ.
Учитывая перспективу независимых семантических слоев, такие поставщики, как dbt Labs, AtScale, Cube и др., инвестируют в свои семантические слои. Поскольку во второй половине 2025 г. важность независимого семантического слоя будет возрастать, не удивляйтесь, если услышите о нем еще больше.
6. Потоковые данные выходят на первый план
Хотя потоковые данные уже давно играют важную роль в некоторых приложениях — играх, кибербезопасности и количественном трейдинге, — их стоимость была слишком высока для более широкого применения. Но теперь, после нескольких неудачных стартов, потоковые данные, похоже, наконец-то становятся мейнстримом — и все благодаря ИИ, который привел все больше организаций к выводу, что очень важно иметь самые лучшие и самые актуальные данные.
Платформы потоковых данных, такие как Apache Kafka и Amazon Kinesis, широко используются во всех отраслях и сферах применения, включая транзакционные, аналитические и операционные. Мы также видим, как новый класс аналитических баз данных, таких как Clickhouse, Apache Pinot и Apache Druid, набирает обороты благодаря потоковым фронтэндам реального времени.
Независимо от того, использует ли приложение ИИ поток данных или они сначала попадают в надежное хранилище, например распределенное, вряд ли пакетные данные будут достаточными для любых будущих сценариев использования, где свежесть данных хотя бы отдаленно является приоритетом.
7. Связь с графовыми базами данных и хранилищами знаний
То, как вы храните данные, оказывает большое влияние на то, что вы можете с ними делать. Будучи одним из наиболее структурированных типов баз данных, графовые хранилища данных и их семантические родственники (RDF, триплсторы) отражают то, как люди воспринимают реальный мир, то есть через связи, которые люди имеют с другими людьми, местами и вещами.
Эта «связанность» данных также делает графовые базы данных столь привлекательными для растущих рабочих нагрузок GenAI. Вместо того чтобы просить LLM определить релевантные связи путем вода 100 или 1000 страниц подсказок и соглашаться с затратами и задержками, которые это неизбежно повлечет за собой, приложения GenAI могут просто запросить графовую базу данных, чтобы определить релевантность, а затем извлечь магию LLM оттуда.
Многие организации добавляют графовые технологии в рабочие нагрузки с расширенным поиском (retrieval-augmented generation, RAG), что называется GraphRAG. Такие стартапы, как Memgraph, используют GraphRAG в хранилищах in-memory, а такие известные игроки, как Neo4j, также адаптируют свои решения к этому перспективному сценарию использования. Ожидайте увидеть больше GraphRAG во второй половине 2025 г. и далее.
8. Продукты данных
Демократизация данных — цель многих, если не большинства организаций. В конце концов, если предоставление некоторым пользователям доступа к некоторым данным — это хорошо, то предоставление большему количеству пользователей доступа к большему количеству данных должно быть еще лучше. Один из способов, с помощью которого организации обеспечивают демократизацию данных, — это развертывание продуктов данных.
В общем случае продукты данных — это приложения, которые создаются для того, чтобы пользователи могли получить доступ к специальным данным или к инсайтам, полученным на их основе. Продукты данных могут быть разработаны для внешней аудитории, как, например, система рекомендаций фильмов Netflix, или использоваться внутри компании, как, например, продукт данных о продажах для региональных менеджеров.
Продукты данных часто внедряются в рамках реализации сетки данных, которая призвана дать возможность независимым командам исследовать и экспериментировать со сценариями использования данных, обеспечивая при этом централизованное управление данными. Стартап под названием Nextdata разрабатывает ПО, помогающее организациям создавать и внедрять продукты данных. ИИ может сделать многое, но он не сможет автоматически решать сложные проблемы с данными на последней миле, поэтому можно ожидать роста популярности продуктов данных.
9. FinOps
Разочарованные высокой стоимостью облачных вычислений, многие организации внедряют идеи и технологии FinOps. Основная идея заключается в том, чтобы лучше понять, как облачные вычисления расходуют финансы организации и какие шаги следует предпринять, чтобы сократить эти расходы.
Изначально облако продавалось как более дешевый вариант по сравнению с локальными вычислениями, но это обоснование больше не работает, поскольку, по оценкам некоторых экспертов, запуск хранилища данных в облаке на 50% дороже, чем в локальной среде.
Организации могут легко сэкономить 10%, предприняв простые шаги, например, приняв планы экономии, предлагаемые поставщиками облачных вычислений, поделился недавно эксперт подразделения облачного консалтинга Deloitte Consulting. Еще 30% можно получить, проанализировав свои счета и предприняв элементарные шаги по сокращению растрат. Дальнейшее снижение затрат требует полной перестройки приложения под платформу публичного облака.
10. Синтетические данные
По мере сокращения объема данных, генерируемых человеком для обучения моделей ИИ, мы вынуждены проявлять изобретательность в поиске новых источников данных для обучения. Одним из таких источников являются синтетические данные.
Синтетические данные — это не фальшивые данные. Это реальные данные, искусственно созданные для придания им нужных характеристик. До GenAI-революции они использовались в компьютерном зрении, где пользователи создавали синтетические изображения редких случаев или крайних ситуаций для обучения модели компьютерного зрения. Сегодня синтетические данные находят все большее применение в медицине, где такие компании, как Synthema, создают синтетические данные для исследования методов лечения редких гематологических заболеваний.
Потенциал использования синтетических данных с генеративным и агентным ИИ представляет большой интерес для сообществ специалистов по данным и ИИ и является одной из тем, за которыми стоит следить во второй половине 2025 г.