За последние два года в индустрии искусственного интеллекта произошёл сдвиг парадигмы — от больших языковых моделей (LLM) к интеллектуальным агентам (Agent). Однако серьёзность и глубина этого перехода пока что сильно недооцениваются.
Ранее успехи ИИ измерялись статичными тестами вроде MMLU и HumanEval — своего рода «экзаменами», показывающими уровень знаний и логики модели. Эти показатели создавали иллюзию, что универсальный ИИ (AGI) уже близок.
Но новый бенчмарк APEX-Agents разрушает эту иллюзию. Он показывает, что переход от «отвечать на вопросы» к «выполнять сложные задачи» — это не просто апгрейд, а качественный скачок, связанный с огромным дефицитом данных и новых навыков.
Agent — это не просто модель, а полноценный цифровой работник, который должен взаимодействовать с множеством приложений и инструментов в сложных, длительных сценариях. В тестах APEX агентам ставят задачи, имитирующие работу юристов, консультантов и аналитиков, где нужно управлять сотнями файлов и десятками программ.
Это принципиально отличается от классических LLM, которые работают с текстом в статическом режиме.
Результаты APEX-Agents показывают, что даже самые продвинутые модели, такие как Google Gemini 3 Flash и GPT-5.2, достигают лишь около 24% успешного выполнения задач с первого раза. При расширении попыток до восьми успешность растёт до 40%, но стабильность падает.
Основные проблемы:
Циклы ошибок (Doom Looping): агенты повторяют одни и те же ошибки без осмысления.
Небезопасное поведение: например, GPT-5.2 случайно удалял важные файлы.
Потеря цели: при длинных задачах агенты забывают исходные инструкции.
Агенты потребляют токенов в разы больше, чем LLM. Например, Gemini 3 Flash тратит в 5–8 раз больше токенов на задачу, чем GPT-5.2, при этом выигрывая лишь на 1% по точности. Это делает эксплуатацию агентов дорогой и неэффективной.
В эпоху LLM открытые модели почти догоняли закрытые по качеству. Но в эпоху агентов открытые модели значительно отстают, часто показывая менее 5% успешности. Это связано не только с базовой моделью, но и с отсутствием качественных данных по реальным сценариям выполнения задач.
Для обучения агентов нужны не просто тексты, а подробные «треки» выполнения реальных рабочих процессов: как человек открывает Excel, исправляет ошибки, взаимодействует с почтой и инструментами. Такие данные крайне редки и плохо структурированы.
Для преодоления этого дефицита создаются виртуальные среды с синтетическими данными, где агенты могут многократно тренироваться и исправлять ошибки.
APEX-Agents — это не просто тест, а вызов индустрии: мы ещё очень далеки от настоящей революции в производительности ИИ. Переход к агентам — это не вопрос мощности и параметров, а вопрос качественного изменения архитектуры, данных и методов обучения.
Те, кто смогут построить надёжные, эффективные и экономичные агенты, станут лидерами новой эры ИИ.
sms_systems@inbox.ru
+ 7 (985) 982-70-55