Крупные языковые модели в процессе предварительного обучения усваивают огромные объемы информации, включая практически все доступные в интернете знания и языковые данные. Но можно ли заставить их «избирательно забывать» определенные факты, даже такие общеизвестные, как «собаки лают»?
Команда исследователей из Meta и Нью-Йоркского университета представила революционную работу «From Concepts to Components», в которой впервые раскрывается метод точного определения и контроля когнитивных модулей в архитектуре Transformer.
Это означает, что теперь можно не только определить, где именно в модели хранится понятие «собака», но и с помощью одного параметра усилить или полностью стереть это знание.
Трансформерные модели, такие как GPT и LLaMA, демонстрируют впечатляющие результаты в понимании языка и распознавании образов, но их внутренняя работа остается «черным ящиком». Это создает две основные проблемы: невозможность объяснить, почему модель выдает определенные результаты, и низкую эффективность корректировки поведения модели, требующую повторного обучения на огромных массивах данных.
Профессор компьютерных наук Джулия Кемпе из Нью-Йоркского университета подчеркивает: «Когда модели применяются в критически важных областях, таких как медицинская диагностика или автономное вождение, объяснимость становится не просто академическим вопросом, а требованием безопасности».
Исследователи предложили два взаимодополняющих метода: SAMD (Scalable Attention Module Discovery) и SAMI (Scalar Attention Module Intervention). SAMD действует как компьютерный томограф, точно определяя модули внимания, отвечающие за конкретные концепции, а SAMI позволяет точно настраивать их интенсивность, как хирург во время операции.
Метод SAMD основан на ключевом наблюдении: каждая концепция в трансформере соответствует определенной комбинации модулей внимания. Этот универсальный подход без предварительных меток позволяет кодировать любую концепцию (например, «собака» или «французский язык») в вектор и находить наиболее релевантные модули через вычисление косинусного сходства.
Процесс включает три этапа: векторизацию концепции, вычисление сходства с модулями внимания и построение модуля из наиболее релевантных голов внимания (обычно достаточно 3-10). Этот метод работает как для языковых, так и для визуальных трансформеров.
SAMI представляет собой «контроллер концепций», позволяющий с помощью одного скалярного параметра усиливать или ослаблять влияние конкретной концепции без изменения весов модели или повторного обучения. Достаточно умножить выходы соответствующих модулей внимания на коэффициент (например, 0.1 или 10), чтобы стереть или усилить концепцию в выводе модели.
Эксперименты подтвердили эффективность метода в четырех сценариях: от простых концепций до сложных навыков, в языковых и визуальных моделях. Например, при негативном вмешательстве (s=-1) модель начинала ошибаться, называя «животное, которое лает» как «колибри», а при позитивном (s=10⁴) повторяла фразу «Сан-Франциско известен мостом Золотые Ворота» четыре раза подряд.
Исследование также показало, что сложные концепции часто кодируются всего 3-10 модулями внимания, что открывает новые возможности для объяснимости и контроля больших моделей. В будущем ИИ может перестать быть «черным ящиком», превратившись в систему из понятных и настраиваемых модулей.
sms_systems@inbox.ru
+ 7 (985) 982-70-55