Ади Полак, директор Confluent по разработке и продвижению опыта разработчиков, рассказывает на портале The New Stack о критически важных способностях, которые должны развивать инженеры по данным, чтобы оставаться актуальными и ценными, а также на практические способы оттачивания этих навыков.
Агентный искусственный интеллект больше не является футуристической концепцией. Он быстро становится частью реальных производственных систем. Согласно новому отчету Capgemini, ожидается, что показатель принятия агентного ИИ к концу этого года вырастет на 48%, поскольку ранние пользователи генеративного ИИ (GenAI) начнут интегрировать автономных агентов в бизнес-операции.
Для инженеров по данным этот сдвиг приносит как вызовы, так и возможности. Традиционных конвейеров, которые питают отчеты или поддерживают модели с пакетным обучением, уже недостаточно. Следующее поколение систем ИИ требует контекста в реальном времени и адаптивных конвейеров, которые поддерживают автономные решения в распределенных системах.
Возможно, вы уже обладаете навыками планирования извлечения, преобразования и загрузки (ETL), аналитических запросов или интеграции машинного обучения. Но насколько хорошо вы готовы оказывать поддержку агентам, которые сотрудничают, учатся и действуют в режиме реального времени?
Рассмотрим критически важные способности, которые инженеры по данным должны развивать, чтобы оставаться актуальными и ценными, а также практические способы оттачивания этих навыков. Освоение этих шаблонов позволит вам оставаться в центре ИИ-инноваций по мере развития этой новой эры.
Два типичных карьерных пути для инженеров по данным
Большинство инженеров по данным достигают уровня потоковых и событийно-ориентированных данных по одному из двух карьерных путей.
Путь 1. Эксперты по базам данных и пакетной обработке. Многие инженеры имеют опыт администрирования баз данных или пакетного ETL. У вас может быть большой опыт написания SQL, планирования рабочих процессов с помощью таких инструментов, как Airflow, и подготовки ежедневной отчетности. Однако когда данные должны передаваться непрерывно, необходимо обрабатывать миллионы событий и обеспечивать принятие мгновенных решений, пакетное мышление часто дает сбой.
Стриминг требует нового мышления. Потоковая передача требует нового подхода. Вы должны сопоставлять время, когда событие фактически произошло, со временем, когда оно было обработано, управлять водяными знаками и окнами и обеспечивать семантику «ровно один раз», даже если что-то меняется в середине процесса. Эти шаблоны проектирования должны быть встроены в ваши конвейеры с самого начала.
Путь 2. Машинное обучение и конструкторы аналитики. Другие инженеры приходят из мира MО или аналитики, обладая опытом работы с обучением моделей, хранилищами функций или API вывода. Однако агенты ИИ и решения для генерации с дополненным поиском (RAG) не работают должным образом на устаревших снимках. Они полагаются на современные, хорошо настроенные конвейеры поиска, векторный поиск и гибридные алгоритмы поиска, которые предоставляют вашим моделям только релевантные факты.
Слабый поиск приводит к неточностям, вызывая галлюцинации и фактические ошибки в больших масштабах. Многие команды недооценивают, что встраивание моделей, организация результатов гибридного поиска в единый релевантный список и контекстное разбиение на фрагменты по сути являются проблемами потоковой передачи и поиска, которые должны решать инженеры по данным.
Критически важные для успеха агентного ИИ навыки в области инженерии данных
Агентный ИИ требует расширения набора навыков работы с потоковыми данными типичного инженера по данным, поскольку речь больше не идет об отдельной модели, работающей изолированно.
Сегодня мы видим сети работающих вместе агентов восприятия, агентов рассуждения и агентов исполнения, каждый из которых выполняет задачи и передает информацию следующему в режиме реального времени. Если вы знаете только, как планировать пакетные задания ETL или развертывать сервер вывода, вами упущен основной навык: как создавать высокопроизводительные конвейеры с малой задержкой, которые обеспечивают надежность и оперативность этих агентов в производстве.
Этим агентным системам необходима управляемая событиями потоковая магистраль, которая передает нужную информацию нужному агенту в нужный момент. Стриминг становится общим языком, который обеспечивает точность и синхронизацию автономных агентов.
Итак, какие именно шаблоны стриминга вам необходимо понимать, чтобы стать инженером по потоковым данным, которого все хотят видеть в своих проектах агентного ИИ?
- Проектирование событийно-управляемых архитектур. Стройте конвейеры, реагирующие на события в режиме реального времени. Освойте шаблоны публикации-подписки, темы Kafka и обработку потоков Flink для постоянного принятия решений.
- Достижение точного поиска. Разберитесь, как векторный поиск, организация результатов гибридного поиска в единый релевантный список и настройка подсказок работают вместе, чтобы выдавать фактические, учитывающие контекст ответы. Шаблоны потоковой передачи и индексации должны быть внедрены непосредственно в ваши конвейеры, а не только доступны для специалистов в области науки о данных.
- Разработка надежных контуров обратной связи. Современные системы ИИ учатся постоянно. Создавайте конвейеры данных, которые отслеживают частоту галлюцинаций, проверяют точность и отправляют исправления для переобучения, замыкая цикл между выводом и улучшением модели.
- Масштабирование и защита конвейеров. Один медленный или прерывистый поток может вызвать каскадные сбои в мультиагентной системе. Используйте реестры схем, обеспечивайте соблюдение контрактов на передачу данных и применяйте семантику «ровно один раз» для поддержания доверия к вашей потоковой инфраструктуре.
- Преодоление языкового разрыва. Коммуникация представляет собой еще одну проблему. Специалисты в области науки о данных часто обсуждают «точность» как метрику, которую инженеры по данным должны воплотить в реальность. Внедряйте такие оценочные показатели, как проверка фактической согласованности, сравнение точности объектов и проверка конвейеров с участием человека.
Повысьте свой уровень, получив сертификацию инженера по потоковым данным
Сертификация инженера по потоковым данным может подтвердить вашу способность проектировать производственные потоковые системы с использованием Kafka, Flink, реестров схем, коннекторов и передовых методов реального времени.
Освоение современных навыков стриминга и получение соответствующего сертификата помогут вам справиться с задачами, непосильными для инженеров по пакетным данным:
- Отказ от старых привычек. Знание того, когда следует перейти от пакетных и микросервисных шаблонов к истинному событийно-ориентированному мышлению.
- «Ровно один раз» в разных системах. Координация согласованного состояния в распределенных инструментах, таких как Kafka и Flink, без скрытых дубликатов.
- Выбор правильного времени. Понимание отличия времени события от времени обработки и его влияния на правильность и задержку.
- Работа с временными окнами и опозданием. Разработка неперекрывающихся, скользящих или сеансовых окон, которые корректно обрабатывают запаздывающие данные.
- Правильное присоединение к потоку. Управление «сиротскими» и «усыновленными» записями, чтобы операции присоединения не засоряли и не теряли события.
- Обеспечение качества и управление на источнике. Перенос проверок и валидации схем на более высокий уровень для защиты всех потребителей.
- Контроль задержек вывода ИИ. Интеграция моделей внутри конвейера без добавления обратного давления или задержки пользователя.
Инвестируйте в свое ИИ-будущее
Если вы уже являетесь инженером по данным, вы играете важную роль в планах вашей организации по внедрению ИИ. Однако интеллектуальные системы не могут полагаться на медленные или устаревшие конвейеры.
Стремитесь освоить основы потоковой передачи, событийно-ориентированные шаблоны, а также системы поиска и обратной связи, которые позволяют ИИ оставаться точным и фактическим. Это уже не нишевые навыки. Они определяют ваше конкурентное преимущество на рынке, где предприятия ожидают надежного ИИ в режиме реального времени.
Будущее принадлежит инженерам, которые предоставляют нужные данные в нужный момент.