В Сети появился «утёкший» материал о новой нативной видеомодели Google — Gemini Omni. Демонстрации вызвали взрыв интереса: реалистичные синтетические сцены, возможность редактировать видео «в диалоге», корректная подача рукописных математических формул — всё это заставило многих говорить о «видеоверсии Nano Banana».
Утечка произошла как раз перед конференцией Google I/O (19 мая 2026), и если показанное подтвердится, рынок генеративного видео ждёт серьёзная встряска.
Что именно показали в утечке
Интерфейс в мобильном приложении Gemini с пунктом «Gemini Omni» и предложением «remix your videos / edit directly in chat / try templates».
Поддержка мультимодальности: текст, изображение, аудио и видео на вход/выход.
Технические параметры упомянуты в утечке: ролики до ~10 секунд, разрешение 1280×720 (по ID модели в утечке).
Демки: профессор пишет и устно комментирует математические выкладки на классной доске — формулы выглядят корректно и связно; анимации и эффекты в других примерах демонстрируют высокую плавность и согласованность между кадрами.
Модель умеет править видео «в реальном времени»: удалять водяные знаки, заменять объекты с сохранением света и маскировки перекрытий, выполнять стилизацию кадров (анимеэффекты и т. п.).
В ранних тестах отмечается высокая скорость расхода квот/кредитов (cost/compute).
Проблемы, которые Omni, кажется, решает
Текстовая согласованность в видео долгое время оставалась «ахиллесовой пятой» генеративных видеомоделей: рукописные формулы и читаемый текст в кадре — редкое достижение. Демо с профессором, где формулы верны и пошагово объясняются, — важный маркер качества модели.
Реальное видеоредактирование через «диалог» (описал — модель поменяла) значительно снижает порог создания и монтажа контента: не нужно знать таймкод, умело маскировать и вручную рисовать коррекции — модель делает это сама.
Интеграция в экосистему Gemini (включая другие модальности) даёт модели преимущества в понимании контекста и связности действий — то, что отличает экспериментальные «генераторы видео» от действительно «встроенных в рабочие процессы» инструментов.
Google может попытаться решить не только качество, но и интеграцию в продукты (мобильные приложения, экосистему Gemini), что позволит распределить стоимость и найти пути монетизации через сервисы и инструменты, а не только через дорогие облачные inferenceзадачи.
Gemini Omni — гипотетическое появление «видеоприставки» к семейству больших моделей — выглядит как следующая крупная веха в генеративных медиа: от качественной генерации к инструментам «вмешательства и редактирования» в диалоге.
Если всё подтвердится, индустрия генеративного видео получит мощный толчок, но вместе с ним — новые социальные, правовые и экономические вызовы. Устойчивость таких продуктов будет зависеть не только от качества синтеза, но и от решений по стоимости вычислений, модерации контента и интеграции в рабочие процессы.
sms_systems@inbox.ru
+ 7 (985) 982-70-55