Авторы из NYU и Berkeley (Emmanuel Dupoux, Янн ЛеКун, Jitendra Malik и др.) в новой работе предлагают системную критику современных подходов и рецепт для автономного обучения агентов, вдохновлённый когнитивным развитием животных и людей.
Полный текст — в препринте на arXiv.
Коротко: нынешние модели хороши в масштабной самоподготовке на статичных датасетах, но они не обладают гибкостью и автономией ребёнка. Решение авторы видят в трёхкомпонентной архитектуре — System A (наблюдение), System B (действие) и System M (метаконтроль) — и в биологически вдохновлённом двухуровневом (evo/devo) обучении.
Почему современный AI не самообучается
Ключевые системные ограничения:
Истощение качественного текстового корпуса — новые знания трудно извлечь только из статичных текстов.
Отсутствие реального взаимодействия с окружающим миром — модели не открывают новые причинноследственные связи.
Переориентация на язык в ущерб пространственному, телесному и физическому мышлению (grounding).
Отсутствие непрерывного (lifelong) обучения: модель после деплоя «заморожена» и обновляется вручную.
Авторы группируют барьеры в три блока: фрагментированные парадигмы обучения, «внешняя» (человеческая) организация обучения и отсутствие масштабируемых методов совместного обучения крупных компонентов.
Архитектура A + B + M: что это и зачем
System A — наблюдательная учеба (selfsupervised learning). Из больших потоков сенсорных данных она извлекает абстрактные, компактные представления — «компрессию мира». Сильна в масштабируемости и переносимости представлений, слаба в отсутствии инициативы и в неспособности выделять причинность.
System B — обучение через действие (reinforcement learning / control). Учится через пробуошибку, оптимизируя награду; обеспечивает адаптивное поведение и проверку гипотез в среде, но крайне неэффективна по сэмплам и чувствительна к определению наград.
System M — метаконтроллер. Не обрабатывает сырые сенсоры, а опирается на внутренние низкоразмерные сигналы (ошибка предсказания, неопределённость, новизна) и динамически маршрутизирует обучение между A и B, управляет памятью, организует «воображение» и социальное обучение.
Идея в том, что System A даёт компактные представления и модель мира, а System B через действие генерирует целевой, информативный опыт — взаимная поддержка делает обучение экономичнее и причинно обоснованнее.
Как запустить всё это с нуля — evo/devo (двухуровневая оптимизация)
Проблема холодного старта: A нужен опыт от B, B — представления от A, M — ошибки обоих. Решение авторов — разделение на два масштаба обучения:
внутренний (development, «devo») — агент в фиксированных условиях взаимодействует с миром, обновляя параметры A и B под контролем текущего M;
внешний (evolution, «evo») — оптимизация начальных метапараметров (инициализации, архитектуры, курс обучения) путём оценки «жизнеспособности» агента на протяжении его жизненного цикла.
Внешняя оптимизация задаёт хорошие начальные условия, а внутренняя позволяет агенту развиваться автономно в рамках среды.
Технические и практические препятствия
Требование реалистичных, но вычислительно дешёвых симуляций; особенно тяжёлым остаётся моделирование социальной среды и взаимодействий «учительученик».
Оценивание: стандартные бенчмарки мало подходят — нужен критерий, сравнимый со скоростью и спектром обучения человеческого ребёнка.
Масштабируемость двойной оптимизации — огромные ресурсы и чувствительность к дизайну курсов/адаптивности среды.
Риски выравнивания и безопасности: автономность усиливает проблему соответствия целям людей, возможен «дрейф целей», нежелательные паттерны поведения или этические дилеммы (эмоциональная привязанность, статус «третьего типа»).
Этика и регуляторные вызовы
Автономные агенты, способные к самостоятельной адаптации, требуют новых правил:
механизмы аудита и вмешательства в System M;
принципы прозрачности и уведомления пользователей о степени автономности;
защита от «поведенческих ошибок» (целевая девиация, зависимость от внутренних сигналов);
долгосрочные обсуждения o моральном статусе систем при появлении «ощущаемых» сигналов (боль, страх) — пока гипотетично, но заслуживает внимания.
Уже есть зачатки — примеры и ограничения
Интеграция представлений и планирования дала результаты в узких доменах: MuZero и Dreamer комбинируют изучение скрытой динамики и планирование; VLAсистемы (vision–language–action) используют крупные SSLпредставления для управления роботом. Но во всех этих системах контрольный цикл обучения и его расписание задаются инженерами — автономности как у ребёнка нет.
Куда двигаться и сколько ждать
Авторы осторожны: до полноценных автономных систем может пройти несколько десятилетий. Однако путь ясен:
Разрабатывать гибридные среды, где A и B могут обмениваться полезными сигналами (предсказания, внутренние вознаграждения).
Строить метаконтроллеры, способные учиться маршрутизировать обучение и задавать курсы самостоятельно.
Принимать evo/devo подход в исследованиях: оптимизация начала + развитие в богатой среде.
Создавать бенчмарки, ориентированные на скорость и разнообразие обучение, а не на однократную производительность.
Интегрировать этику и механизмы внешнего контроля на этапе архитектуры.
Вывод
Трёхкомпонентная схема System A + System B + System M — это не просто модная архитектурная идея, а попытка формализовать то, что делает биологических учителей и детей эффективными: комбинированное наблюдение, целенаправленное действие и метарегуляция учебного процесса.
Основной вызов теперь — перейти от доказательных узких результатов в симуляциях к масштабируемым, безопасным и управляемым системам, которые действительно учатся в открытом мире без постоянной внешней помощи инженеров. Это сложная научная и инженерная задача, но её решение обещает радикально расширить автономность и полезность AI в реальном мире.
sms_systems@inbox.ru
+ 7 (985) 982-70-55