Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Big Data/Аналитика: Статьи Новости компаний Решения

Панорама

«ТОП-40 диджитал-экспертов»: время «гибридных» ИТ-директоров

Ежегодный рейтинг лидеров цифровой отрасли зафиксировал эволюцию ролей CIO и CTO в российских компаниях. Обнародован …

Облачная защита от DDoS: альтернатива возможна, но в редких случаях

DDoS-атаки развиваются не по принципу замены старых методов новыми, а по принципу накопления. Техники …

Новое поколение IdM-систем полностью заменит привычные сегодня IdM?

IdM-системы давно стали привычным элементом корпоративной ИТ-инфраструктуры. Рынок развивается уже не первое десятилетие …

Сергей Кузнецов о техническом долге в критических системах: «Никто не планировал 3,5 миллиона записей — именно так и возникает технический долг»

Инженер-программист рассказывает о том, почему накопленные «кодовые упрощения» становятся серьезной угрозой для приложений …

Состояние и перспективы развития российских систем управления идентификацией и доступом. Часть 1

Российский рынок систем управления идентификацией и доступом (IAM) объектов и субъектов к корпоративным …

Новая Open Source-экономика инфраструктуры данных

09.10.2025

Многоуровневое хранение, векторный поиск и аналитика реального времени обеспечивают одновременную оптимизацию производительности, затрат и гибкости, а не конкурируют друг с другом, пишет на портале The New Stack Анил Инамдар, руководитель сервисов данных NetApp Instaclustr.

Спросите любого архитектора данных, чего всего пять лет назад казалось невозможным достичь с минимальными затратами, и вы услышите о системах обнаружения мошенничества в режиме реального времени, обрабатывающих миллионы транзакций в секунду, поисковых системах на базе искусственного интеллекта, которые понимают контекст петабайтов неструктурированных данных, и платформах распределенной аналитики, которые уважают суверенитет данных и обеспечивают глобальные инсайты.

Это больше не амбициозные сценарии использования будущего, а реальные производственные рабочие нагрузки, которые выполняются — и выполняются хорошо — на инфраструктуре данных на основе 100%-но открытого исходного кода.

Разница между этими реализациями и устаревшими стратегиями данных в значительной степени сводится к правильному выбору архитектуры, которая может меняться вместе с вашими приложениями. Если в традиционных подходах инфраструктура данных рассматривалась как центр затрат, который необходимо минимизировать, то сегодня более разумным направлением является создание систем, которые активно оптимизируются с точки зрения производительности, затрат и операционной гибкости одновременно.

Open Source-технологии инфраструктуры данных обладают уникальными возможностями для создания таких интеллектуальных архитектур, предлагая глубину настройки и инновации сообщества, с которыми проприетарные системы просто не могут сравниться.

Производственные нагрузки, которые казались невозможными пять лет назад, теперь достижимы благодаря особым архитектурным инновациям, внедренным в Open Source-экосистему.

Многоуровневое хранение преобразует экономику данных реального времени

Apache Kafka долгое время была основой корпоративных конвейеров данных реального времени, но ее модель хранения данных привела к дорогостоящему парадоксу. Чтобы поддерживать низкую задержку при обработке в режиме реального времени, организациям приходилось хранить все данные на высокопроизводительных уровнях хранения — даже подавляющее большинство записей, к которым редко приходилось получать доступ повторно. Системе обнаружения мошенничества может потребоваться миллисекундный доступ к последнему часу транзакций, но она может выдержать большую задержку при анализе исторических шаблонов. Однако оба набора данных хранятся на одном и том же дорогостоящем уровне хранения.

Многоуровневое хранилище Kafka коренным образом меняет структуру этих систем. Архитектура разделяет хранилище журналов Kafka на «горячие» и «холодные» уровни, автоматически управляя размещением данных на основе шаблонов доступа. Недавно созданные данные сохраняются в локальном хранилище с низкой задержкой, в то время как более старые сегменты переходят в объектные хранилища, такие как S3. Важнейшим нововведением является то, что пользователи Kafka по-прежнему могут прозрачно получать доступ к данным холодного уровня через тот же API.

При доступе на горячем уровне p99-задержка составляет менее 10 мс, в то время как при поиске на холодном уровне она обычно увеличивается на 50-100 мс. Для большинства сценариев использования в режиме реального времени, когда последние данные влияют на принятие решений, а исторические данные поддерживают периодический анализ, эти компромиссы позволяют снизить затраты на хранение на 70-80% без ущерба для основных функциональных возможностей. Платформа розничной торговли, обрабатывающая clickstream-данные, теперь может сохранять хронологию событий за месяцы для обучения модели машинного обучения с минимальными затратами, тогда как ранее она могла архивировать (или удалять) эти данные только за нескольких недель.

Поиск с использованием ИИ делает неструктурированные данные полезными

Корпоративный поиск вызывает постоянное разочарование. Традиционные системы, основанные на ключевых словах, выдают слишком много нерелевантных результатов, в то время как расширенные возможности требуют специальных языков запросов, которые большинство пользователей никогда не изучают. Векторный поиск и модели вложений, наконец, меняют это уравнение.

OpenSearch, PostgreSQL с pgvector и Apache Cassandra 5.0 с возможностями векторного поиска теперь позволяют выполнять семантический поиск в масштабе. Документы и запросы кодируются в виде многомерных векторов с использованием языковых моделей, при этом сходство измеряется в векторном пространстве, а не по совпадению ключевых слов. Когда представитель службы поддержки клиентов ищет «жалобы на задержку доставки», система понимает семантическую связь между записями, в которых упоминается «поздняя доставка» или «заказ не прибыл», не требуя точного соответствия фраз.

Индексные структуры, такие как HNSW (hierarchical navigable small world), позволяют осуществлять приблизительный поиск ближайших соседей, который возвращает результаты за миллисекунды даже по миллиардам векторов. Для предприятий с существующими системами OpenSearch или PostgreSQL переход к поиску на базе ИИ не требует полной замены платформы. Добавление векторных возможностей в существующие системы позволяет командам итеративно расширять функциональность поиска, доказывая ее ценность, прежде чем приступить к полной миграции.

Более того, операционное воздействие распространяется не только на поисковые системы. Векторные вложения позволяют использовать механизмы рекомендаций, которые понимают взаимосвязи между контентом, системы обнаружения аномалий, которые выявляют необычные закономерности в журналах, и чат-боты, которые могут «рыться» в корпоративных базах знаний.

ClickHouse повышает эффективность операционной аналитики

Хранилища данных традиционно представляли собой пакетно-ориентированные системы, которые обрабатывали данные с запланированными интервалами и были оптимизированы для сложных аналитических запросов к историческим наборам данных. ClickHouse и аналогичные столбчатые базы данных с открытым исходным кодом стирают границы между операционными и аналитическими нагрузками, позволяя выполнять запросы к миллиардам строк свежих данных за секунды.

ClickHouse обеспечивает высокую производительность благодаря интенсивному сжатию и столбчатому хранению, оптимизированному для аналитических моделей доступа. В то время как базы данных, ориентированные на строки, хранят все поля записи последовательно, столбчатые системы хранят каждый столбец отдельно. Когда аналитическому запросу требуется объединить несколько столбцов в миллионах строк, с диска считываются только соответствующие столбцы. В сочетании со сжатием на основе кодеков, которое может достигать 10-кратной или более высокой степени сжатия, запросы часто могут выполняться полностью в памяти даже при работе с массивными наборами данных.

Переход от традиционных хранилищ данных требует переосмысления моделирования данных. ClickHouse предпочитает широкие денормализованные таблицы нормализованным схемам с объединениями (JOIN). Для организаций с развитыми системами Snowflake или Redshift решение заключается не столько в замене, сколько в выявлении рабочих нагрузок, для которых производительность в реальном времени важнее, чем возможности существующих платформ.

Гибридная инфраструктура наконец-то заработала

Устаревшие локальные системы требуют огромных вложений, от которых предприятия не могут просто отказаться. Однако этим системам все чаще требуется взаимодействие с современными нативно-облачными сервисами для аналитики, MО и обработки в режиме реального времени.

Kubernetes стала интеграционным уровнем, обеспечивающим гибридное развертывание. Изначально разработанная для оркестровки микросервисов, эта платформа теперь поддерживает рабочие нагрузки с отслеживанием состояния, включая базы данных и очереди сообщений. Она позволяет абстрагироваться от различий в инфраструктуре, давая возможность мобильно развертывать приложения в локальных дата-центрах и публичных облаках.

Интеграция на уровне данных важна не меньше, чем на уровне управления. Инструменты сбора данных об изменениях, такие как Debezium, переносят изменения в базе данных из устаревших систем в темы Kafka, делая данные десятилетней давности доступными для обработки в режиме реального времени без внесения изменений в проверенные производственные базы данных.

Управляемые Open Source-сервисы обеспечивают операционные преимущества для предприятий, создающих гибридные архитектуры. Надежная работа Kafka, ClickHouse или OpenSearch требует глубоких знаний в этих конкретных технологиях. Управляемые сервисы позволяют организациям сосредоточиться на шаблонах интеграции и моделях данных, а не на настройке кластеров и обновлении версий.

Создание интеллектуальной инфраструктуры становится реальностью

Тенденции, изменяющие корпоративную инфраструктуру данных, имеют общие черты, выходящие за рамки общей Open Source-основы. Все они представляют собой архитектурные решения, которые оптимизируют одновременно несколько аспектов, а не рассматривают производительность, затраты и гибкость как конкурирующие факторы.

Для технических руководителей, оценивающих эти технологии, вопрос заключается не в том, стоит ли их внедрять, а в последовательности внедрения. Использование многоуровневого хранения для существующих развертываний Kafka обеспечивает немедленную экономию средств при минимальном риске. Добавление векторного поиска в существующие базы данных позволяет использовать функции ИИ без смены платформы. Ключевым моментом является определение того, какие возможности устраняют ваши наиболее существенные ограничения на сегодняшний день, а со временем обеспечивают переход к более интеллектуальной архитектуре.

100%-но открытый исходный код этих технологий обеспечивает необычайную гибкость при внедрении. Вы можете поэкспериментировать с ClickHouse на подмножестве аналитических рабочих нагрузок, прежде чем приступить к полной миграции. Я не говорю, что вы должны внедрять все одновременно, но низкий барьер для экспериментов означает, что затраты на проверку этих подходов в вашем конкретном контексте удивительно низки.

В преддверии 2026 г., который, так или иначе, уже маячит на горизонте, тенденции в области инфраструктуры, набирающие силу в настоящее время, будут все чаще становиться базовыми ожиданиями. Предприятия, которые сегодня быстро внедряют интеллектуальную инфраструктуру данных, закладывают фундамент для будущего. Те, кто будет ждать, обнаружат, что они не только отстают от текущих возможностей, но и не готовы к следующей волне требований, основанных на этих принципах.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.