Почему AI пока не умеет самообучаться

Почему AI пока не умеет самообучаться
 

Авторы из NYU и Berkeley (Emmanuel Dupoux, Янн ЛеКун, Jitendra Malik и др.) в новой работе предлагают системную критику современных подходов и рецепт для автономного обучения агентов, вдохновлённый когнитивным развитием животных и людей.

Полный текст — в препринте на arXiv.

Коротко: нынешние модели хороши в масштабной самоподготовке на статичных датасетах, но они не обладают гибкостью и автономией ребёнка. Решение авторы видят в трёхкомпонентной архитектуре — System A (наблюдение), System B (действие) и System M (метаконтроль) — и в биологически вдохновлённом двухуровневом (evo/devo) обучении.

Почему современный AI не самообучается

Ключевые системные ограничения:

Истощение качественного текстового корпуса — новые знания трудно извлечь только из статичных текстов.

Отсутствие реального взаимодействия с окружающим миром — модели не открывают новые причинноследственные связи.

Переориентация на язык в ущерб пространственному, телесному и физическому мышлению (grounding).

Отсутствие непрерывного (lifelong) обучения: модель после деплоя «заморожена» и обновляется вручную.

Авторы группируют барьеры в три блока: фрагментированные парадигмы обучения, «внешняя» (человеческая) организация обучения и отсутствие масштабируемых методов совместного обучения крупных компонентов.

Архитектура A + B + M: что это и зачем

System A — наблюдательная учеба (selfsupervised learning). Из больших потоков сенсорных данных она извлекает абстрактные, компактные представления — «компрессию мира». Сильна в масштабируемости и переносимости представлений, слаба в отсутствии инициативы и в неспособности выделять причинность.

System B — обучение через действие (reinforcement learning / control). Учится через пробуошибку, оптимизируя награду; обеспечивает адаптивное поведение и проверку гипотез в среде, но крайне неэффективна по сэмплам и чувствительна к определению наград.

System M — метаконтроллер. Не обрабатывает сырые сенсоры, а опирается на внутренние низкоразмерные сигналы (ошибка предсказания, неопределённость, новизна) и динамически маршрутизирует обучение между A и B, управляет памятью, организует «воображение» и социальное обучение.

Идея в том, что System A даёт компактные представления и модель мира, а System B через действие генерирует целевой, информативный опыт — взаимная поддержка делает обучение экономичнее и причинно обоснованнее.

Как запустить всё это с нуля — evo/devo (двухуровневая оптимизация)

Проблема холодного старта: A нужен опыт от B, B — представления от A, M — ошибки обоих. Решение авторов — разделение на два масштаба обучения:

внутренний (development, «devo») — агент в фиксированных условиях взаимодействует с миром, обновляя параметры A и B под контролем текущего M;

внешний (evolution, «evo») — оптимизация начальных метапараметров (инициализации, архитектуры, курс обучения) путём оценки «жизнеспособности» агента на протяжении его жизненного цикла.

Внешняя оптимизация задаёт хорошие начальные условия, а внутренняя позволяет агенту развиваться автономно в рамках среды.

Технические и практические препятствия

Требование реалистичных, но вычислительно дешёвых симуляций; особенно тяжёлым остаётся моделирование социальной среды и взаимодействий «учительученик».

Оценивание: стандартные бенчмарки мало подходят — нужен критерий, сравнимый со скоростью и спектром обучения человеческого ребёнка.

Масштабируемость двойной оптимизации — огромные ресурсы и чувствительность к дизайну курсов/адаптивности среды.

Риски выравнивания и безопасности: автономность усиливает проблему соответствия целям людей, возможен «дрейф целей», нежелательные паттерны поведения или этические дилеммы (эмоциональная привязанность, статус «третьего типа»).

Этика и регуляторные вызовы

Автономные агенты, способные к самостоятельной адаптации, требуют новых правил:

механизмы аудита и вмешательства в System M;

принципы прозрачности и уведомления пользователей о степени автономности;

защита от «поведенческих ошибок» (целевая девиация, зависимость от внутренних сигналов);

долгосрочные обсуждения o моральном статусе систем при появлении «ощущаемых» сигналов (боль, страх) — пока гипотетично, но заслуживает внимания.

Уже есть зачатки — примеры и ограничения

Интеграция представлений и планирования дала результаты в узких доменах: MuZero и Dreamer комбинируют изучение скрытой динамики и планирование; VLAсистемы (vision–language–action) используют крупные SSLпредставления для управления роботом. Но во всех этих системах контрольный цикл обучения и его расписание задаются инженерами — автономности как у ребёнка нет.

Куда двигаться и сколько ждать

Авторы осторожны: до полноценных автономных систем может пройти несколько десятилетий. Однако путь ясен:

Разрабатывать гибридные среды, где A и B могут обмениваться полезными сигналами (предсказания, внутренние вознаграждения).

Строить метаконтроллеры, способные учиться маршрутизировать обучение и задавать курсы самостоятельно.

Принимать evo/devo подход в исследованиях: оптимизация начала + развитие в богатой среде.

Создавать бенчмарки, ориентированные на скорость и разнообразие обучение, а не на однократную производительность.

Интегрировать этику и механизмы внешнего контроля на этапе архитектуры.

Вывод

Трёхкомпонентная схема System A + System B + System M — это не просто модная архитектурная идея, а попытка формализовать то, что делает биологических учителей и детей эффективными: комбинированное наблюдение, целенаправленное действие и метарегуляция учебного процесса.

Основной вызов теперь — перейти от доказательных узких результатов в симуляциях к масштабируемым, безопасным и управляемым системам, которые действительно учатся в открытом мире без постоянной внешней помощи инженеров. Это сложная научная и инженерная задача, но её решение обещает радикально расширить автономность и полезность AI в реальном мире.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!