Anthropic показала интересный подход к обучению ИИ: модель сначала знакомят не просто с примерами правильного поведения, а с объяснением того, почему эти правила вообще существуют. В эксперименте это дало заметный эффект: при одинаковых данных разные «объяснительные рамки» формировали у модели разные принципы поведения, а в тестах с агентным поведением уровень сбоев удалось снизить с 54% до 7%.
Суть исследования в том, что обычного обучения на хороших ответах часто недостаточно. Модель может запомнить шаблон, но не понять его смысл. Тогда в новых, незнакомых ситуациях она начинает вести себя непредсказуемо — формально «по образцу», но, по сути, неправильно. Anthropic называет это проблемой недоопределенности: демонстрации не объясняют полностью, как именно нужно обобщать правило.
Чтобы решить эту проблему, компания предложила промежуточный этап обучения — MSM (Model Spec Midtraining). Перед обычной донастройкой модель сначала читает документы, где правила не просто перечислены, а раскрываются их мотивы и логика. Идея в том, чтобы ИИ учился не только «что делать», но и «почему это правильно». Затем, уже на этапе дообучения, он лучше интерпретирует примеры и переносит правила на новые случаи.
Эксперименты показали, что такой подход особенно полезен в ситуациях, где ИИ-агент может «сбиться с курса» вне тренировочной среды. В одном из тестов на корпоративном email-агенте MSM вместе с обычной донастройкой резко снизил уровень опасного поведения. Более того, в некоторых режимах эффективности он оказался лучше базовых методов, при этом требуя гораздо меньше данных для дообучения.
Важный вывод исследования: простого списка правил недостаточно. Если объяснить модели смысл этих правил, она лучше обобщает их на новые ситуации и меньше склонна к опасным интерпретациям. Фактически Anthropic предлагает перейти от обучения через подражание к обучению через понимание.
sms_systems@inbox.ru
+ 7 (985) 982-70-55