Google выпустила Gemma 4 — новое семейство open-source-моделей, построенное на том же технологическом стеке, что и Gemini 3. И это стало серьёзной встряской для рынка открытых моделей.
Главная новость проста: модель с 31B параметров теперь конкурирует с моделями, которые крупнее в десятки раз.
Судя по опубликованным бенчмаркам, 31B dense-модель Gemma 4 вышла в топ открытых моделей, а версия 26B MoE также показала отличные результаты по эффективности и производительности. Общий вывод очевиден: одного количества параметров уже недостаточно. Теперь не меньшее значение имеют архитектура и эффективность модели.
Четыре модели — четыре сценария использования
Gemma 4 выпускается в четырёх вариантах:
E2B
E4B
26B MoE
31B Dense
Каждая модель доступна как в base-версии, так и в варианте instruction-tuned.
Младшие E2B и E4B предназначены для edge-устройств. Google утверждает, что они могут работать офлайн на телефонах, Raspberry Pi и Jetson-устройствах с почти нулевой задержкой. Более крупные 31B и 26B ориентированы на разработчиков, рабочие станции и серверы.
Модель 31B Dense делается под качество, а 26B MoE — под скорость. Поскольку во время инференса активируется только 3.8B параметров, эта версия особенно интересна для агентных сценариев, где критична низкая задержка.
Прорыв по бенчмаркам действительно впечатляет
Сильная сторона Gemma 4 — не один удачный результат, а широкий набор улучшений.
Среди заявленных достижений:
математика: результат на AIME 2026 вырос до 89.2%;
кодинг: заметный рост на LiveCodeBench;
агенты: резкий скачок на t2-bench, что говорит о гораздо более сильной работе с инструментами и workflow;
мультимодальность: серьёзное улучшение в понимании изображений и видео;
длинный контекст: заметно лучшее обращение с длинными документами и кодовыми базами;
многоязычные задачи: значительный рост на бенчмарках по рассуждению и знаниям.
Особенно важно то, что модель с 31B параметров, по сообщениям, в некоторых сценариях обгоняет модели примерно в 20 раз крупнее.
Для open-source-экосистемы это очень серьёзный сигнал.
Почему архитектура так важна
Google подчёркивает, что Gemma 4 — это не просто «больше и лучше», а модель с более эффективной архитектурой. Здесь выделяются три ключевые идеи.
Per-Layer Embeddings
Вместо того чтобы загружать всю информацию в один входной embedding-слой, Gemma 4 даёт каждому слою свой лёгкий сигнальный канал.
Это значит, что каждый слой получает более точное представление токена и его контекста. Идея в том, чтобы распределить вычислительную нагрузку более эффективно по всей сети.
Shared KV cache
Поздние слои повторно используют key/value-тензоры вместо того, чтобы пересчитывать их заново.
Это снижает потребление памяти и вычислительные затраты, что особенно полезно при длинном контексте и на edge-устройствах.
Alternating attention
Модель чередует локальное sliding-window attention и глобальное full-context attention.
Такой подход помогает балансировать между эффективностью и пониманием длинных зависимостей. Во многом именно поэтому даже младшие модели показывают такие хорошие результаты.
Проще говоря, Google, похоже, оптимизировала Gemma 4 по одному принципу: каждый параметр должен работать на максимум.
Полная мультимодальность
Gemma 4 — это ещё и полноценная мультимодальная модель.
Она умеет работать с:
изображениями,
видео,
а для E2B и E4B — ещё и со звуком.
Vision-энкодер получил несколько важных улучшений:
поддержку переменного соотношения сторон,
настраиваемый бюджет image tokens,
лучшее OCR и разбор документов,
более точное определение элементов интерфейса.
Это значит, что пользователь может, например, отправить скриншот, спросить, где находится кнопка, и получить структурированные JSON-координаты.
Модель также умеет анализировать видеосцены, распознавать речь и поддерживать мультимодальный function calling.
Для agent-workflow это особенно важно: модель может распознать объект, найти информацию и вызвать внешний инструмент — всё в рамках одного процесса.
Создана не только для чата, но и для агентов
Одна из самых важных новинок — нативная поддержка агентного поведения.
Gemma 4 включает:
function calling,
структурированный JSON-вывод,
поддержку system instructions,
многошаговые tool workflows.
Это не модель, которую нужно «заставлять» вызывать инструменты через хитрый prompt engineering. Она обучена делать это изначально.
Поэтому Gemma 4 особенно полезна как основа для локальных ассистентов, coding agents и встроенных AI-приложений.
Apache 2.0: важный сдвиг в политике
Самая заметная нефункциональная новость — это лицензия.
Gemma 4 стала первой Gemma-моделью под лицензией Apache 2.0.
Это очень важно.
Ранние версии Gemma использовали кастомную лицензию Google, которая была заметно жёстче и требовала дополнительной юридической проверки. Apache 2.0 снимает эти барьеры:
разрешено коммерческое использование;
разрешено распространение;
разрешены модификации;
разрешён запуск на любой инфраструктуре.
Для разработчиков и компаний это делает Gemma 4 гораздо проще для внедрения.
Кроме того, это показывает, что Google гораздо серьёзнее относится к open-source AI как к экосистемной стратегии.
Двухуровневая стратегия Google теперь очевидна
С Gemma 4 стратегия Google в AI становится очень понятной:
Gemini — закрытая, премиальная, API-ориентированная, монетизируемая линейка;
Gemma — открытая, эффективная, удобная для разработчиков, экосистемная линейка.
Это умная позиция.
Gemini остаётся флагманским продуктом. Gemma становится открытой базой для локального запуска, edge AI, кастомных агентов и экспериментов разработчиков.
Обе линии усиливают друг друга.
Почему это важно
Gemma 4 важна потому, что она меняет ожидания от open-source-моделей.
Теперь гонка открытых моделей — это уже не только про то, кто опубликует модель с большим числом параметров. Теперь важно:
эффективность,
мультимодальность,
готовность к агентным сценариям,
локальный запуск,
юридическая пригодность для бизнеса.
31B-модель, которая может работать на одной мощной GPU, решать мультимодальные задачи, поддерживать агентов и использоваться коммерчески под Apache 2.0 — это совсем другой класс open-source AI.
Она снижает барьер для разработчиков и одновременно повышает планку для всех остальных.
Вывод
Gemma 4 — это не просто ещё один релиз open-model. Это знак того, что граница open-source-сегмента сместилась.
Модель размера 31B теперь может конкурировать далеко за пределами своего класса. Маленькие модели умеют работать на телефонах и embedded-устройствах. А Apache 2.0 делает всю линейку намного удобнее для реальных продуктов.
Иными словами, правила игры в мире открытых моделей изменились.
Следующая волна AI будет определяться уже не только более крупными моделями, а моделями, которые достаточно эффективны, достаточно открыты и достаточно удобны, чтобы работать повсюду.
sms_systems@inbox.ru
+ 7 (985) 982-70-55