Как энтузиаст воссоздал предполагаемую архитектуру Claude Mythos

Как энтузиаст воссоздал предполагаемую архитектуру Claude Mythos
 

Вокруг архитектуры Claude Mythos в последнее время возник почти мифологический ореол: модель называют слишком мощной и даже «запечатанной». Но пока одни обсуждали слухи, 22-летний разработчик Kye Gomez, основатель фреймворка Swarms, попытался собрать эту архитектуру заново на основе открытых исследований и популярных технических гипотез.

Так появился OpenMythos — открытый проект, в котором реализована модель класса Recurrent-Depth Transformer (RDT) с механизмом MoE-маршрутизации.

Главная идея RDT состоит в том, чтобы не бесконечно наращивать число слоев и параметров, а заставить одну и ту же вычислительную структуру «думать» несколько раз. В архитектуре Gomez один и тот же блок может повторно применяться до 16 циклов, причем на каждом шаге активируются разные эксперты.

За счет этого модель получает не только «глубину размышления», но и более экономное использование параметров. По сути, вместо стратегии «больше слоев — больше мощность» предлагается другая: меньше параметров, но больше итеративной обработки.

Особую роль здесь играет смесь экспертов — MoE. В OpenMythos этот подход, по словам автора, частично вдохновлен DeepSeekMoE: система сочетает множество специализированных экспертов с небольшим числом постоянно активных общих модулей.

В результате, как сформулировал сам Gomez, MoE дает модели широту знаний, а циклическая архитектура — глубину рассуждения. Дополняет эту схему идея стабильных циклов, предложенная в недавних научных работах: она нужна для того, чтобы повторные проходы не приводили к расходимости вычислений.

Еще одна важная особенность — рассуждение в скрытом пространстве. В отличие от Chain-of-Thought, где модель выдает промежуточные шаги рассуждений в виде текста, RDT выполняет все промежуточные итерации внутри hidden state и показывает пользователю только финальный ответ. Иными словами, модель не «думает вслух», а сначала проходит несколько внутренних раундов обработки, после чего формулирует готовый результат.

Интерес к подобным архитектурам подогревают и академические эксперименты. Исследования показывают, что циклические Transformer-модели лучше справляются с систематической генерализацией и глубинной экстраполяцией: они умеют комбинировать уже известные факты в новые цепочки и решать более длинные рассуждательные задачи, чем те, на которых обучались.

Если эти выводы подтвердятся, индустрия может постепенно сместить акцент с простого масштабирования моделей на новый принцип: не только обучать больше, но и давать модели больше времени на внутреннее мышление во время вывода.

Поэтому вопрос, действительно ли Anthropic использовала именно такую архитектуру в Mythos, уже не выглядит ключевым. Гораздо важнее то, что сама идея циклических Transformer-моделей стремительно выходит из области догадок в поле открытых экспериментов. И вполне возможно, что следующая большая гонка в ИИ будет связана не с размером модели, а с тем, насколько эффективно она умеет думать повторно.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!