Согласно результатам, опубликованным некоммерческой исследовательской группой METR, занимающейся вопросами искусственного интеллекта, инструменты ИИ могут замедлить работу опытных Open Source-разработчиков, а не ускорить ее, сообщает портал eWeek.
Многие разработчики и эксперты ожидали, что использование передовых инструментов значительно повысит производительность и сократит время выполнения задач в привычных кодовых базах примерно на 24%. Однако рандомизированное исследование METR показало, что все обстоит с точностью до наоборот.
По словам авторов исследования, «к удивлению, мы обнаружили, что когда разработчики используют инструменты ИИ, у них уходит на 19% больше времени», чем без использования передовых инструментов.
Бенчмарки «жертвуют реализмом»
В исследовании также отмечается, что «хотя бенчмарки для оценки возможностей агентов по кодированию оказались полезными для понимания возможностей ИИ, они обычно жертвуют реализмом ради масштаба и эффективности».
Далее авторы отчета объясняют, что задачи кодирования часто «самодостаточны» и не требуют предварительного контекста для понимания возможностей инструментов. Бенчмарки также «используют алгоритмическую оценку, которая не отражает многие важные возможности... Эти свойства могут привести к тому, что бенчмарки будут переоценивать возможности ИИ».
В частности, исследователи отмечают, что из-за отсутствия человеческого контроля в бенчмарках модели ИИ часто застревают на незначительных препятствиях, которые разработчик может быстро устранить в практических сценариях. Следовательно, бенчмарки могут переоценивать возможности ИИ в силу своей конструкции.
Будущие модели могут быть лучше
Несмотря на то, что замедление темпа работы оказалось в целом одинаковым для всех задач, авторы подчеркивают, что оно может зависеть от тестируемой среды. «Полученные результаты не означают, что будущие модели не ускорят разработчиков именно в тех же самых условиях»; это «вполне возможно», учитывая быстрый прогресс в повышении возможностей ИИ.
Тем не менее, полученные результаты опровергают широко распространенное мнение о том, что ИИ всегда делает высокооплачиваемых инженеров-программистов гораздо более продуктивными. Это мнение послужило причиной значительных инвестиций в производителей инструментов для кодирования с помощью ИИ, известного как «вайб-кодинг», которые, как ожидается, улучшат процесс разработки ПО.
«Наши результаты свидетельствуют о значительном расхождении между предполагаемым и фактическим влиянием ИИ на производительность разработчиков, — пишут авторы исследования. — Несмотря на широкое распространение инструментов ИИ и уверенные прогнозы положительного ускорения от экспертов и разработчиков, мы наблюдаем, что ИИ фактически замедляет работу опытных разработчиков в современной среде».
Исследователи также обнаружили, что инструменты для кодирования с использованием ИИ могут иногда приводить к ошибкам и уязвимостям в системе безопасности.
Методология
Чтобы измерить реальное влияние ИИ на производительность разработчиков, METR организовала рандомизированное контролируемое исследование, в ходе которого 16 разработчиков выполнили 246 заданий в Open Source-репозиториях, в которые они регулярно вносили свой вклад. В каждом задании случайным образом разрешалась или запрещалась помощь со стороны ИИ, и исследователи фиксировали время, которое потребовалось участникам для завершения работы при каждом из условий.