Вокруг архитектуры Claude Mythos в последнее время возник почти мифологический ореол: модель называют слишком мощной и даже «запечатанной». Но пока одни обсуждали слухи, 22-летний разработчик Kye Gomez, основатель фреймворка Swarms, попытался собрать эту архитектуру заново на основе открытых исследований и популярных технических гипотез.
Так появился OpenMythos — открытый проект, в котором реализована модель класса Recurrent-Depth Transformer (RDT) с механизмом MoE-маршрутизации.
Главная идея RDT состоит в том, чтобы не бесконечно наращивать число слоев и параметров, а заставить одну и ту же вычислительную структуру «думать» несколько раз. В архитектуре Gomez один и тот же блок может повторно применяться до 16 циклов, причем на каждом шаге активируются разные эксперты.
За счет этого модель получает не только «глубину размышления», но и более экономное использование параметров. По сути, вместо стратегии «больше слоев — больше мощность» предлагается другая: меньше параметров, но больше итеративной обработки.
Особую роль здесь играет смесь экспертов — MoE. В OpenMythos этот подход, по словам автора, частично вдохновлен DeepSeekMoE: система сочетает множество специализированных экспертов с небольшим числом постоянно активных общих модулей.
В результате, как сформулировал сам Gomez, MoE дает модели широту знаний, а циклическая архитектура — глубину рассуждения. Дополняет эту схему идея стабильных циклов, предложенная в недавних научных работах: она нужна для того, чтобы повторные проходы не приводили к расходимости вычислений.
Еще одна важная особенность — рассуждение в скрытом пространстве. В отличие от Chain-of-Thought, где модель выдает промежуточные шаги рассуждений в виде текста, RDT выполняет все промежуточные итерации внутри hidden state и показывает пользователю только финальный ответ. Иными словами, модель не «думает вслух», а сначала проходит несколько внутренних раундов обработки, после чего формулирует готовый результат.
Интерес к подобным архитектурам подогревают и академические эксперименты. Исследования показывают, что циклические Transformer-модели лучше справляются с систематической генерализацией и глубинной экстраполяцией: они умеют комбинировать уже известные факты в новые цепочки и решать более длинные рассуждательные задачи, чем те, на которых обучались.
Если эти выводы подтвердятся, индустрия может постепенно сместить акцент с простого масштабирования моделей на новый принцип: не только обучать больше, но и давать модели больше времени на внутреннее мышление во время вывода.
Поэтому вопрос, действительно ли Anthropic использовала именно такую архитектуру в Mythos, уже не выглядит ключевым. Гораздо важнее то, что сама идея циклических Transformer-моделей стремительно выходит из области догадок в поле открытых экспериментов. И вполне возможно, что следующая большая гонка в ИИ будет связана не с размером модели, а с тем, насколько эффективно она умеет думать повторно.
sms_systems@inbox.ru
+ 7 (985) 982-70-55