Агенты искусственного интеллекта могут строить древовидные структуры данных (B±деревья) и диспетчеры буферов, но, по словам доцента кафедры компьютерных наук Университета Карнеги-Меллона Энди Павло, оптимизатор запросов и автономная база данных остаются их самой сложной нерешенной задачей, сообщает портал The New Stack.
По мере того, как большие языковые модели (LLM) развиваются от простых чат-ботов до автономных агентов, способных рассуждать, планировать и действовать, они начинают самостоятельно управлять сложными стеками приложений. Однако сейчас эти агенты сталкиваются со своим самым серьезным препятствием — базой данных.
«Базы данных представляют собой самую сложную и важную проблему для агентов из-за их бескомпромиссных требований к корректности и производительности», — заявил Энди Павло на недавней конференции «Percona Live 2026» в Калифорнии.
В ходе обсуждения взаимодействия ИИ и Open Source-инфраструктуры он утверждал, что, хотя агенты-кодировщики могут легко воспроизводить стандартные структуры данных, база данных остается самой сложной частью любой системы для автоматизации и оптимизации.
«Например, если агент генерирует галлюцинации компонента пользовательского интерфейса, страница выглядит немного некорректно; если он генерирует галлюцинации на уровне запроса или изменения конфигурации в производственной базе данных, вся система может исчезнуть», — сказал Павло.
Вот это действительно должно вызвать тревогу.
Мультиагентное перетягивание каната
Павло выделил два основных способа влияния ИИ на мир баз данных: агенты-настройщики и агенты-кодировщики. Первые стремятся избавить нас от «черной магии» оптимизации баз данных, автоматически корректируя параметры системы, физические схемы (такие как индексы) и стратегии выполнения запросов. Исторически это требовало от администратора базы данных (DBA) многолетней работы над развитием интуиции, чтобы понять, какая конфигурация обеспечит лучшую задержку или пропускную способность.
Проблема в том, что эти специализированные агенты часто работают изолированно, отметил Павло. Агент, регулирующий параметры, может не знать, что делает агент, регулирующий индексы, что приводит к локальным минимумам, где система лучше стандартной, но далека от оптимальной. По его словам, исследования Университета Карнеги-Меллона в области многораундовой и последовательной настройки направлены на решение этой проблемы путем создания координирующей структуры, хотя даже она сталкивается с «проклятием размерности».
Университетская группа баз данных является пионером в области разработки концепции самоуправляемой и управляемой машинным обучением оптимизации баз данных. Последовательная и многораундовая настройка являются основными компонентами их проектов по автономным СУБД.
Многораундовая и последовательная настройка баз данных ИИ относится к передовым методам машинного обучения и инженерии данных, в которых модели ИИ совершенствуются для многошагового рассуждения, использования инструментов или сложных историй диалогов. Эти структуры гарантируют, что модели ИИ не только реагируют изолированными одношаговыми импульсами, но и сохраняют контекст и логику в сложных взаимодействиях.
С триллионами возможных комбинаций конфигураций пространство поиска идеальной базы данных фактически экспоненциально.
Преимущества агентов-кодировщиков и проблема оптимизатора запросов
Что касается разработки, агенты-кодировщики уже доказали свою высокую эффективность в качестве партнеров. Павло отметил, что в Университете Карнеги-Меллона количество строк кода, представленных студентами для проектов по базам данных, резко возросло после того, как было разрешено использовать LLM. «Агенты-кодировщики очень хорошо справляются с созданием практически всех частей базы данных — B±деревьев, хеш-таблиц, диспетчеры буферов — потому что они могут воспроизводить стандартные реализации, найденные в учебниках и Open Source-репозиториях», — сказал он.
Однако, по его словам, «двойной черный ромб» (экстремальные сложность и непредстказуемость) по-прежнему остается проблемой оптимизатора запросов. В отличие от базовых структур данных, оптимизаторы запросов редко доступны в виде чистых, модульных Open Source-ссылок. Они часто тесно связаны с системами, для которых были созданы. Кроме того, доказательство семантической корректности правила преобразования, сгенерированного ИИ, — то есть, что оно дает тот же результат, что и исходный запрос, но быстрее, — остается нерешенной проблемой.
Риски включают галлюцинации и проблемы безопасности
Переход к агентному управлению базами данных сопряжен со значительными рисками. Павло и некоторые лидеры отрасли, такие как соучредитель Percona Питер Зайцев, предупреждают, что делегирование оркестровки агентам создает огромные пробелы в стабильности и безопасности. Уже задокументированы случаи, когда агенты, направленные на базу данных, случайно выводят из строя всю систему или допускают утечку конфиденциальной информации, поскольку не понимают нюансов контроля доступа, сказал Зайцев.
Кроме того, LLM страдают от так называемой проблемы «ИИ-помоев» («AI slop»), когда они генерируют код, узкоспециализированный для конкретного запроса, но не способный к обобщению. Например, если разработчик использует агента для оптимизации пункта «Извлечь год», агент может создать внутреннюю структуру данных, которая сломается в тот момент, когда разработчик попытается выполнить «Извлечь месяц».
Автоматизация как помощник, а не замена
Несмотря на эти препятствия, Павло выразил оптимизм по поводу модели «агент-оператор». Она предполагает, что агенты будут обрабатывать ситуации типа «в 3 часа ночи всё идёт наперекосяк» — внезапные аномалии производительности и проблемы со стабильностью, — в то время как люди сосредоточатся на проектировании архитектуры более высокого уровня. По словам Павло, использование методов Agent Boosting (практики, направленные на повышение эффективности работы ИИ-агентов в сфере кодирования) для получения обучающих данных из ранее настроенных баз данных позволяет сократить время, необходимое для оптимизации системы, с 12 часов до менее чем 15 минут.
В новую эру ИИ цель состоит не только в том, чтобы иметь ИИ, который пишет код, но и в том, чтобы система могла рассуждать о собственной производительности и корректности. По мнению Павло, база данных является основой знаний для любого агента. «Если мы хотим автономных систем, мы должны сначала освоить непрощающее искусство автономных баз данных», — сказал он.






























