Google открывает новую эпоху голосовых AI-агентов: теперь голосом можно и код писать, и приложения собирать

Google открывает новую эпоху голосовых AI-агентов: теперь голосом можно и код писать, и приложения собирать
 

Google представила новую версию своего аудио- и голосового AI — Gemini 3.1 Flash Live. Компания называет модель своей самой качественной системой для реального голосового взаимодействия. Она уже доступна в Gemini App, Search Live и Google AI Studio.

Главное в этой версии — не просто улучшение распознавания речи, а полноценный переход к голосовому агенту, который способен не только отвечать, но и выполнять действия: управлять приложениями, помогать в разработке, поддерживать длинный диалог, работать с инструментами и удерживать контекст.

Самая заметная идея релиза — это так называемый vibe coding: пользователь может буквально голосом менять интерфейс, дописывать функции и перестраивать приложение в реальном времени.

Например, человек говорит:

«сделай микрофон крупнее»;

«добавь жёлтые точки на фон»;

«пусть элементы реагируют на наведение мыши»;

«сделай стиль более поп-артовым».

И модель не просто понимает запрос, а последовательно перестраивает интерфейс под новые указания. По сути, голос превращается в полноценный интерфейс разработки.

Что улучшилось в Gemini 3.1 Flash Live

Новая модель заметно сильнее предыдущих версий в ключевых сценариях голосового агента.

По опубликованным тестам:

в ComplexFuncBench audio точность вызова функций достигла 90,8%;

в Scale Audio MultiChallenge модель получила 36,1%, опередив ряд конкурентов, включая GPT-Realtime-1.5 и GPT-4o Audio preview.

Кроме того, Google улучшила:

задержку ответа;

удержание контекста;

работу в многозадачных диалогах;

мультиязычность;

вызов внешних инструментов;

устойчивость к шуму;

понимание интонации, темпа и пауз.

Иными словами, Google делает ставку не просто на “говорящий AI”, а на практичного голосового исполнителя задач.

Google сразу встроила Gemini 3.1 Flash Live в несколько направлений:

1. Разработка приложений

В Google AI Studio модель уже можно использовать для голосовой разработки. Это тот самый сценарий, где AI помогает собирать интерфейс буквально в процессе разговора.

2. Gemini App

В мобильном приложении усилили реальное многошаговое голосовое общение. Пользователь может продолжать длинный диалог, переключать задачи и не терять контекст.

3. Search Live

Поисковый режим с голосом стал доступен более чем в 200 странах и регионах, включая мультиязычную коммуникацию.

4. AI-устройства и сервисы

Google демонстрирует применение модели и в сценариях для умных устройств, и в игровых механиках, и в образовательных, и в бытовых кейсах.

Почему модель уже называют «спасением Siri»

Публикация модели совпала с новой волной слухов вокруг Apple. На этом фоне многие в сети уже окрестили Gemini 3.1 Flash Live потенциальным «спасением Siri».

Суть здесь не в шутке, а в более широком контексте: голосовой AI становится новым слоем пользовательского опыта. Тот, кто сделает его быстрее, естественнее и полезнее, получит огромное преимущество в мобильных устройствах, ассистентах и носимой электронике.

Google отдельно продемонстрировала три области применения.

1. Совместная работа над интерфейсом

В дизайнерском инструменте голос помогает редактировать внешний вид приложения: менять режимы, стили, цвета, элементы сетки и компоновку.

2. Мультиязычное общение

В одном из сценариев модель помогает общаться на разных языках без разрыва диалога. Это особенно важно для людей, которым нужен непрерывный разговор в бытовых ситуациях.

3. Игровое взаимодействие

В игровой среде голосовая модель может поддерживать роль персонажа и отвечать строго в рамках заданной вселенной.

Что это значит для рынка

Google по сути строит full-stack voice agent — полноценный голосовой стек, который работает не только как ассистент, но и как инструмент для работы, общения и творчества.

Это делает голосовой AI следующим большим интерфейсом после текста и касания. Если раньше AI-ассистент был чем-то вроде справочной системы, то теперь он становится оператором действий.

На этом фоне резко усиливается конкуренция:

Google делает ставку на технологическую глубину;

другие игроки — на удобство, локализацию и пользовательскую привязанность;

китайские компании, в свою очередь, быстро подтягивают качество и уже активно конкурируют в голосовых сценариях.

Gemini 3.1 Flash Live — это не просто обновление распознавания речи. Это попытка превратить голос в полноценный рабочий интерфейс для AI.

Если эта логика закрепится, то в ближайшие годы мы можем прийти к миру, где:

приложение собирают голосом,

задачи ставят голосом,

диалоги ведут как с живым помощником,

а голосовой AI становится базовой функцией смартфона.

Именно поэтому новая версия Gemini важна не только как модель, но и как шаг к новой эпохе взаимодействия человека и AI.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!