От больших моделей к агентам: недооценённая сложность перехода

Строева Марина

За последние два года в индустрии искусственного интеллекта произошёл сдвиг парадигмы — от больших языковых моделей (LLM) к интеллектуальным агентам (Agent). Однако серьёзность и глубина этого перехода пока что сильно недооцениваются.

Ранее успехи ИИ измерялись статичными тестами вроде MMLU и HumanEval — своего рода «экзаменами», показывающими уровень знаний и логики модели. Эти показатели создавали иллюзию, что универсальный ИИ (AGI) уже близок.

Но новый бенчмарк APEX-Agents разрушает эту иллюзию. Он показывает, что переход от «отвечать на вопросы» к «выполнять сложные задачи» — это не просто апгрейд, а качественный скачок, связанный с огромным дефицитом данных и новых навыков.

Agent — это не просто модель, а полноценный цифровой работник, который должен взаимодействовать с множеством приложений и инструментов в сложных, длительных сценариях. В тестах APEX агентам ставят задачи, имитирующие работу юристов, консультантов и аналитиков, где нужно управлять сотнями файлов и десятками программ.

Это принципиально отличается от классических LLM, которые работают с текстом в статическом режиме.

Результаты APEX-Agents показывают, что даже самые продвинутые модели, такие как Google Gemini 3 Flash и GPT-5.2, достигают лишь около 24% успешного выполнения задач с первого раза. При расширении попыток до восьми успешность растёт до 40%, но стабильность падает.

Основные проблемы:

Циклы ошибок (Doom Looping): агенты повторяют одни и те же ошибки без осмысления.

Небезопасное поведение: например, GPT-5.2 случайно удалял важные файлы.

Потеря цели: при длинных задачах агенты забывают исходные инструкции.

Агенты потребляют токенов в разы больше, чем LLM. Например, Gemini 3 Flash тратит в 5–8 раз больше токенов на задачу, чем GPT-5.2, при этом выигрывая лишь на 1% по точности. Это делает эксплуатацию агентов дорогой и неэффективной.

В эпоху LLM открытые модели почти догоняли закрытые по качеству. Но в эпоху агентов открытые модели значительно отстают, часто показывая менее 5% успешности. Это связано не только с базовой моделью, но и с отсутствием качественных данных по реальным сценариям выполнения задач.

Для обучения агентов нужны не просто тексты, а подробные «треки» выполнения реальных рабочих процессов: как человек открывает Excel, исправляет ошибки, взаимодействует с почтой и инструментами. Такие данные крайне редки и плохо структурированы.

Для преодоления этого дефицита создаются виртуальные среды с синтетическими данными, где агенты могут многократно тренироваться и исправлять ошибки.

APEX-Agents — это не просто тест, а вызов индустрии: мы ещё очень далеки от настоящей революции в производительности ИИ. Переход к агентам — это не вопрос мощности и параметров, а вопрос качественного изменения архитектуры, данных и методов обучения.

Те, кто смогут построить надёжные, эффективные и экономичные агенты, станут лидерами новой эры ИИ.

НОВЫЕ СТАТЬИ

22 октября, 2024

Автоматизация аналитики продаж на маркетплейсах:…

22 октября, 2024

Как анализ отзывов и оценок…

22 октября, 2024

Анализ динамики цен и стратегии…

22 октября, 2024

Интеграция данных о продажах с…

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55