Искусственный интеллект уже умеет неплохо писать отдельные функции и чинить локальные баги. Но когда речь заходит не об одном задаче, а о долгой эволюции реального проекта, картина резко меняется. Именно это показало новое исследование EvoClaw, которое оценивает не «разовый фикс», а способность AI-агента вести кодовую базу через серию взаимосвязанных изменений.
В чём проблема современных AI-оценок
Большинство популярных бенчмарков, вроде SWE-bench, проверяют модель на изолированных задачах: починить ошибку, выполнить PR, закрыть issue. Это полезно, но слишком упрощённо.
В реальной разработке код меняется постепенно:
старые решения ограничивают будущие;
мелкие ошибки накапливаются;
архитектура усложняется;
технический долг растёт.
То есть разработка — это не набор независимых задач, а непрерывный процесс, где каждое новое решение влияет на следующее.
Чтобы проверить именно такую реальность, исследователи создали новый бенчмарк EvoClaw. Он основан на настоящей истории развития open-source проектов. Команда реконструировала её в виде цепочки milestone DAG — графа зависимых этапов, где каждый этап представляет собой не отдельный коммит, а более крупный и осмысленный функциональный шаг.
Идея проста: не смотреть, умеет ли агент исправить один баг, а проверить, может ли он последовательно развивать проект, не разрушая его основу.
Что показали результаты
Главный вывод оказался неприятным: как только AI выходит за пределы одиночной задачи и попадает в режим длительной эволюции кода, его качество резко падает.
Если в обычных независимых тестах лучшие модели показывают 80–90%, то в EvoClaw:
максимальный общий score оказался около 38%;
а полная успешность решения задач — всего 13,37% у лучшей модели.
Причём чаще всего агент справлялся только с теми задачами, у которых почти не было предшествующих зависимостей.
Исследование показывает, что основная слабость AI в программировании — не в умении писать новый код, а в умении сохранять целостность старого.
Модели неплохо растят recall — то есть могут добавлять нужный функционал. Но у них быстро упирается в потолок precision — они начинают слишком часто ломать уже работающие части системы.
Именно это приводит к эффекту, который авторы называют своего рода техническим долгом в миниатюре: ошибки накапливаются быстрее, чем успевают исправляться.
Почему «кодогенерация» уже недостаточна
EvoClaw показывает важный сдвиг: будущее AI-программирования — это уже не просто генерация кода по запросу, а управление развитием системы.
Чтобы AI действительно стал полезным в серьёзной инженерной работе, ему нужны:
долгосрочная память;
понимание архитектуры проекта;
умение делать рефакторинг;
способность видеть скрытые зависимости;
навык не только добавлять код, но и безопасно менять уже существующий.
Именно этого сегодня чаще всего не хватает.
Исследование EvoClaw довольно жёстко формулирует проблему: современные AI-агенты ещё не являются полноценными «сеньор-инженерами». Они хорошо справляются с локальными задачами, но в длительном проекте начинают буксовать, накапливать ошибки и терять устойчивость.
Иными словами, AI уже умеет писать код, но пока ещё плохо умеет вести программный проект через время.
EvoClaw — это важный сигнал для всей индустрии. Настоящий барьер для AI в программировании сегодня — не в скорости генерации, а в способности к долгосрочной, аккуратной и системной эволюции кода.
sms_systems@inbox.ru
+ 7 (985) 982-70-55