До недавнего времени большинство предприятий рассматривали данные реального времени как нечто, к чему обращаются только в случае крайней необходимости. Они находились на периферии корпоративной архитектуры. Однако ситуация изменилась: данные и аналитика реального времени стали ключевой темой усилий по модернизации предприятий и анонсов инфраструктуры данных, сообщает портал BigDataWire.
В прошлом году Confluent и Databricks объединили усилия, чтобы преодолеть разрыв в данных для искусственного интеллекта. Партнерство построено вокруг уровня данных в движении для конвейеров ИИ. Snowflake и Ataccama сотрудничают в области обеспечения доверия к данным реального времени для корпоративного ИИ.
Данные реального времени также являются ключевой темой в научной ИИ-сфере. Исследователи теперь в значительной степени склоняются к анализу данных по мере их поступления вместо анализа пакетных данных позже. В условиях резкого роста объемов данных Брукхейвенская национальная лаборатория внедрила ИИ в физические конвейеры. Берклиевская лаборатория связала детекторы с суперкомпьютерами для анализа данных ядерной физики в реальном времени.
Как в корпоративном секторе, так и в науке общая нить одна и та же. Данные все чаще используются в момент принятия решений, независимо от того, принимаются ли эти решения людьми, программным обеспечением или системами ИИ.
Почему использование реального времени перешло из разряда крайних случаев в разряд стандартных?
Чтобы лучше понять этот сдвиг, давайте немного вернемся назад. Исторически «реальное время» использовалось только тогда, когда это было абсолютно необходимо. Сценарии использования в основном были связаны с отчетами, а не с действиями.
Таким образом, цель заключалась скорее в понимании, чем в реагировании. Это считалось рискованным, потому что было трудно узнать, являются ли данные полными и надежными. Если возникали какие-либо проблемы, отладка в реальном времени была мучительной. Это была еще одна система, которая могла отстать или дать сбой. Большинство предприятий ограничивали использование реального времени только критически важными сценариями, такими как обнаружение мошенничества или мониторинг сети.
С тех пор ситуация изменилась. Одна из причин этого заключается в том, что облачные платформы и управляемые потоковые сервисы сняли большую часть операционной нагрузки, которая делала использование реального времени рискованным. Хотя затраты по-прежнему остаются серьезной проблемой, стало значительно проще (и предсказуемее) довести идею до работающего производственного конвейера. Корпоративным системам не нужно ждать следующего запланированного запуска, чтобы получить необходимые данные.
Еще одним важным моментом стало сочетание ИИ и автоматизации, приближающее данные к выполнению. Встраивая модели непосредственно в рабочие процессы, предприятия теперь могут получать актуальные данные. Это также позволяет выявлять проблемы с задержкой, которые ранее были скрыты за отчетами и панелями мониторинга.
Когда системы ИИ работают с некачественными или устаревшими данными, это отражается на качестве выходных данных. Это может привести к принятию неверных бизнес-решений. Сейчас мы видим, как современные приложения генерируют непрерывные потоки событий из различных источников, таких как поведение клиентов или телеметрия системы. Рынок перешел от периодических снимков к более непрерывным сигналам, поступающим в режиме реального времени. Именно поэтому технология реального времени теперь находится близко к архитектурному ядру, а не является крайним случаем.
Стоит помнить, что использование реального времени по умолчанию не означает, что каждой системе необходимы обновления с точностью до миллисекунды или постоянная потоковая передача данных, но это означает, что команды все чаще исходят из предположения, что актуальное состояние должно быть доступно в момент принятия решений.
Как предприятия применяют реальное время сегодня
Большинство предприятий используют реальное время в качестве уровня выполнения. Оно вышло за рамки простого уровня отчетности. Это означает, что данные сначала используются системами и рабочими процессами, а затем могут быть обобщены для использования в панелях мониторинга или отчетах по мере необходимости. Многие системы теперь спроектированы таким образом, чтобы выполнять действия непосредственно через потоки данных реального времени. Например, приложения теперь могут корректировать поведение системы или обновлять рекомендации по мере развития событий.
Во многих средах данные реального времени используются для поддержания постоянно обновляемого состояния. Это могут быть контекст сессии, уровни запасов, оценки рисков или показатели состояния системы. Любой тип данных, который помогает приложениям ориентироваться при принятии решений.
Изменился подход команд к проектированию с учетом этого состояния. Вместо создания конвейеров, существующих исключительно для передачи данных аналитике, команды, работающие с данными, создают системы, которые по умолчанию ожидают актуальности состояния. Это влияет на то, как сервисы взаимодействуют, как обрабатываются сбои и как структурируются рабочие процессы. Данные реального времени часто используются для управления действиями, обеспечения соблюдения ограничений или предотвращения рассинхронизации систем при изменении условий. Со временем это смещает роль аналитики на более поздние этапы. Несомненно, понимание ситуации по-прежнему важно, но оно все чаще следует за выполнением, а не руководит им.
Аналогичные изменения в конвейерах научных данных
Подобные изменения происходят и за пределами предприятий. Данные поступают в таком масштабе и с такой скоростью, что это бросает вызов традиционным пакетным рабочим процессам в научных исследованиях. Подход «сохранить все, чтобы проанализировать позже» больше не работает. Обработка в реальном времени часто используется для фильтрации, маркировки или ранжирования поступающих данных, чтобы только наиболее релевантные сигналы передавались дальше. Это помогает снизить нагрузку на системы хранения, а также избежать неэффективного использования вычислительных ресурсов для обработки малоценных или некорректных данных.
Благодаря более оперативной обратной связи исследователи также могут корректировать эксперимент или исследование по мере необходимости. Это может включать изменение параметров или экспериментальных условий после обнаружения аномалий в поступающих данных. Они могут даже корректировать настройки просто для проверки различных условий или идей.
Во многих лабораториях это достигается за счет прямой связи приборов и детекторов с высокопроизводительными вычислительными ресурсами. Вместо того чтобы сначала собирать данные и отправлять их на анализ позже, вычисления выполняются параллельно со сбором данных. Это означает, что не нужно ждать начала отдельной фазы постобработки — вы можете видеть результаты, пока эксперименты еще продолжаются.
В биологических науках и исследованиях, требующих интенсивной обработки изображений, анализ в реальном времени используется для сортировки поступающих данных, принятия решений о том, что следует сохранить, что можно сжать, а что можно немедленно отбросить, чтобы оставаться в рамках ограничений систем хранения и вычислительных ресурсов.
Однако по мере распространения систем реального времени возникают новые проблемы. Надежность — одна из самых больших. Поскольку системы реального времени работают непрерывно, может не хватать контроля для выявления проблем. Даже незначительные проблемы, которые остаются незамеченными, могут быстро перерасти в серьезные. Природа систем реального времени также дорогостояща. Любой всплеск данных или трафика может увеличить затраты на инфраструктуру — чего предприятия не хотят, особенно учитывая их обеспокоенность по поводу рентабельности инвестиций в свои ИИ-инициативы.






























