Google представила новую версию своего аудио- и голосового AI — Gemini 3.1 Flash Live. Компания называет модель своей самой качественной системой для реального голосового взаимодействия. Она уже доступна в Gemini App, Search Live и Google AI Studio.
Главное в этой версии — не просто улучшение распознавания речи, а полноценный переход к голосовому агенту, который способен не только отвечать, но и выполнять действия: управлять приложениями, помогать в разработке, поддерживать длинный диалог, работать с инструментами и удерживать контекст.
Самая заметная идея релиза — это так называемый vibe coding: пользователь может буквально голосом менять интерфейс, дописывать функции и перестраивать приложение в реальном времени.
Например, человек говорит:
«сделай микрофон крупнее»;
«добавь жёлтые точки на фон»;
«пусть элементы реагируют на наведение мыши»;
«сделай стиль более поп-артовым».
И модель не просто понимает запрос, а последовательно перестраивает интерфейс под новые указания. По сути, голос превращается в полноценный интерфейс разработки.
Что улучшилось в Gemini 3.1 Flash Live
Новая модель заметно сильнее предыдущих версий в ключевых сценариях голосового агента.
По опубликованным тестам:
в ComplexFuncBench audio точность вызова функций достигла 90,8%;
в Scale Audio MultiChallenge модель получила 36,1%, опередив ряд конкурентов, включая GPT-Realtime-1.5 и GPT-4o Audio preview.
Кроме того, Google улучшила:
задержку ответа;
удержание контекста;
работу в многозадачных диалогах;
мультиязычность;
вызов внешних инструментов;
устойчивость к шуму;
понимание интонации, темпа и пауз.
Иными словами, Google делает ставку не просто на “говорящий AI”, а на практичного голосового исполнителя задач.
Google сразу встроила Gemini 3.1 Flash Live в несколько направлений:
1. Разработка приложений
В Google AI Studio модель уже можно использовать для голосовой разработки. Это тот самый сценарий, где AI помогает собирать интерфейс буквально в процессе разговора.
2. Gemini App
В мобильном приложении усилили реальное многошаговое голосовое общение. Пользователь может продолжать длинный диалог, переключать задачи и не терять контекст.
3. Search Live
Поисковый режим с голосом стал доступен более чем в 200 странах и регионах, включая мультиязычную коммуникацию.
4. AI-устройства и сервисы
Google демонстрирует применение модели и в сценариях для умных устройств, и в игровых механиках, и в образовательных, и в бытовых кейсах.
Почему модель уже называют «спасением Siri»
Публикация модели совпала с новой волной слухов вокруг Apple. На этом фоне многие в сети уже окрестили Gemini 3.1 Flash Live потенциальным «спасением Siri».
Суть здесь не в шутке, а в более широком контексте: голосовой AI становится новым слоем пользовательского опыта. Тот, кто сделает его быстрее, естественнее и полезнее, получит огромное преимущество в мобильных устройствах, ассистентах и носимой электронике.
Google отдельно продемонстрировала три области применения.
1. Совместная работа над интерфейсом
В дизайнерском инструменте голос помогает редактировать внешний вид приложения: менять режимы, стили, цвета, элементы сетки и компоновку.
2. Мультиязычное общение
В одном из сценариев модель помогает общаться на разных языках без разрыва диалога. Это особенно важно для людей, которым нужен непрерывный разговор в бытовых ситуациях.
3. Игровое взаимодействие
В игровой среде голосовая модель может поддерживать роль персонажа и отвечать строго в рамках заданной вселенной.
Что это значит для рынка
Google по сути строит full-stack voice agent — полноценный голосовой стек, который работает не только как ассистент, но и как инструмент для работы, общения и творчества.
Это делает голосовой AI следующим большим интерфейсом после текста и касания. Если раньше AI-ассистент был чем-то вроде справочной системы, то теперь он становится оператором действий.
На этом фоне резко усиливается конкуренция:
Google делает ставку на технологическую глубину;
другие игроки — на удобство, локализацию и пользовательскую привязанность;
китайские компании, в свою очередь, быстро подтягивают качество и уже активно конкурируют в голосовых сценариях.
Gemini 3.1 Flash Live — это не просто обновление распознавания речи. Это попытка превратить голос в полноценный рабочий интерфейс для AI.
Если эта логика закрепится, то в ближайшие годы мы можем прийти к миру, где:
приложение собирают голосом,
задачи ставят голосом,
диалоги ведут как с живым помощником,
а голосовой AI становится базовой функцией смартфона.
Именно поэтому новая версия Gemini важна не только как модель, но и как шаг к новой эпохе взаимодействия человека и AI.
sms_systems@inbox.ru
+ 7 (985) 982-70-55