Переосмысление архитектуры памяти: LLM получают «операционную систему»

 

Современные крупные языковые модели (LLM) имеют ограниченное контекстное окно — большинство моделей обрабатывают лишь тысячи или десятки тысяч токенов. Например, ранняя версия GPT-3 поддерживала всего около 2048 токенов. Хотя некоторые современные модели, такие как Llama 4 Scout от Meta, расширили это окно до миллионов и даже десятков миллионов токенов.

Ограниченное контекстное окно создает «дефект памяти» у LLM, что серьезно снижает их способность поддерживать согласованность в долгосрочных взаимодействиях, таких как многораундовые диалоги. Это особенно проблематично, поскольку память играет ключевую роль в рефлексии, планировании и работе интеллектуальных агентов.

Недавние исследования, такие как проект MemOS, предлагают новый подход к управлению памятью LLM. В отличие от традиционных методов, таких как RAG (Retrieval-augmented Generation) или параметрическое хранение, MemOS рассматривает память как системный ресурс, аналогичный вычислительной мощности. Этот подход объединяет текстовые данные, состояния активации и параметры памяти в единую систему, обеспечивая возможность постоянного обновления и саморазвития модели.

Связь между памятью LLM и обработкой длинного контекста

Способность LLM обрабатывать длинные контексты напрямую влияет на их память. Длинный контекст (Long Context) — это объем текста, который модель может учитывать во время текущего вывода. Он используется для задач, требующих сохранения контекста, таких как анализ документов или многораундовые диалоги.

Ключевые аспекты обработки длинного контекста включают:

Способность к обобщению длины: возможность модели работать с последовательностями, превышающими ее обучающую выборку.

Эффективные механизмы внимания: алгоритмы, снижающие вычислительные затраты при обработке длинных последовательностей.

Сохранение информации: способность модели использовать данные из удаленных частей контекста.

Управление подсказками: оптимизация prompt-инжиниринга для максимального использования контекста.

Память LLM, в отличие от контекста, представляет собой механизм долгосрочного хранения информации, такой как предпочтения пользователя или история диалогов. Основатель SwirlAI Aurimas Griciūnas выделяет несколько типов памяти:

1. Событийная память — запись прошлых взаимодействий.

2. Семантическая память — внешние знания и понимание модели собственных возможностей.

3. Процедурная память — структурная информация, такая как системные подсказки и доступные инструменты.

4. Рабочая память — временное хранение данных, используемых в текущей задаче.

Длинный контекст и память могут дополнять друг друга: память предоставляет информацию для включения в контекст, а длинный контекст уменьшает зависимость от внешних хранилищ.

Методы реализации памяти в LLM

Расширение контекстного окна

Один из способов улучшить память LLM — увеличить длину контекста. Для этого используются:

1. RAG — метод, сочетающий поиск информации с генерацией ответов. Он позволяет LLM обращаться к внешним базам знаний, снижая риск «галлюцинаций».

2. Иерархическое суммирование — рекурсивное сокращение длинных текстов, хотя этот метод может приводить к накоплению ошибок.

3. Скользящее окно — обработка текста по частям с последующим объединением результатов.

Другие подходы включают модификации позиционного кодирования, оптимизацию архитектуры внимания и гибридные методы.

Методы управления памятью

Память LLM можно организовать двумя способами:

Фиксированный пул памяти: например, MemoryLLM, который интегрирует память в скрытое пространство модели, или Memory Transformer, использующий специальные токены для хранения данных.

Динамический пул памяти: включает такие форматы, как скрытые состояния, пары ключ-значение, векторы в скрытом пространстве или raw-тексты. Эти методы более гибкие, но могут страдать от избыточности данных.

Системы управления памятью

Современные исследования предлагают подходы, вдохновленные операционными системами. Например:

MemGPT — система, где LLM управляет контекстным окном, используя внешнюю память для хранения данных. Это аналогично виртуальной памяти в традиционных ОС.

MemOS — промышленное решение, сочетающее API, менеджер памяти и хранилище данных.

MemoryOS — открытая框架, использующая трехуровневую систему памяти (краткосрочную, среднесрочную и долгосрочную).

MIRIX — многомодальная система памяти для мультиагентных LLM.

Другие исследования, такие как Larimar и M+, имитируют работу человеческой памяти, используя распределенное хранение и скрытые пространства для улучшения долгосрочного запоминания.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!