Новое исследование EvoClaw показало: у AI-агентов успех в длительной разработке — лишь 13,37%

Новое исследование EvoClaw показало: у AI-агентов успех в длительной разработке — лишь 13,37%
 

Искусственный интеллект уже умеет неплохо писать отдельные функции и чинить локальные баги. Но когда речь заходит не об одном задаче, а о долгой эволюции реального проекта, картина резко меняется. Именно это показало новое исследование EvoClaw, которое оценивает не «разовый фикс», а способность AI-агента вести кодовую базу через серию взаимосвязанных изменений.

В чём проблема современных AI-оценок

Большинство популярных бенчмарков, вроде SWE-bench, проверяют модель на изолированных задачах: починить ошибку, выполнить PR, закрыть issue. Это полезно, но слишком упрощённо.

В реальной разработке код меняется постепенно:

старые решения ограничивают будущие;

мелкие ошибки накапливаются;

архитектура усложняется;

технический долг растёт.

То есть разработка — это не набор независимых задач, а непрерывный процесс, где каждое новое решение влияет на следующее.

Чтобы проверить именно такую реальность, исследователи создали новый бенчмарк EvoClaw. Он основан на настоящей истории развития open-source проектов. Команда реконструировала её в виде цепочки milestone DAG — графа зависимых этапов, где каждый этап представляет собой не отдельный коммит, а более крупный и осмысленный функциональный шаг.

Идея проста: не смотреть, умеет ли агент исправить один баг, а проверить, может ли он последовательно развивать проект, не разрушая его основу.

Что показали результаты

Главный вывод оказался неприятным: как только AI выходит за пределы одиночной задачи и попадает в режим длительной эволюции кода, его качество резко падает.

Если в обычных независимых тестах лучшие модели показывают 80–90%, то в EvoClaw:

максимальный общий score оказался около 38%;

а полная успешность решения задач — всего 13,37% у лучшей модели.

Причём чаще всего агент справлялся только с теми задачами, у которых почти не было предшествующих зависимостей.

Исследование показывает, что основная слабость AI в программировании — не в умении писать новый код, а в умении сохранять целостность старого.

Модели неплохо растят recall — то есть могут добавлять нужный функционал. Но у них быстро упирается в потолок precision — они начинают слишком часто ломать уже работающие части системы.

Именно это приводит к эффекту, который авторы называют своего рода техническим долгом в миниатюре: ошибки накапливаются быстрее, чем успевают исправляться.

Почему «кодогенерация» уже недостаточна

EvoClaw показывает важный сдвиг: будущее AI-программирования — это уже не просто генерация кода по запросу, а управление развитием системы.

Чтобы AI действительно стал полезным в серьёзной инженерной работе, ему нужны:

долгосрочная память;

понимание архитектуры проекта;

умение делать рефакторинг;

способность видеть скрытые зависимости;

навык не только добавлять код, но и безопасно менять уже существующий.

Именно этого сегодня чаще всего не хватает.

Исследование EvoClaw довольно жёстко формулирует проблему: современные AI-агенты ещё не являются полноценными «сеньор-инженерами». Они хорошо справляются с локальными задачами, но в длительном проекте начинают буксовать, накапливать ошибки и терять устойчивость.

Иными словами, AI уже умеет писать код, но пока ещё плохо умеет вести программный проект через время.

EvoClaw — это важный сигнал для всей индустрии. Настоящий барьер для AI в программировании сегодня — не в скорости генерации, а в способности к долгосрочной, аккуратной и системной эволюции кода.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!