Рубеж в эре AIсмартфонов: Gemini выбирает путь между Doubaoтелефоном и Qianwen

Рубеж в эре AIсмартфонов: Gemini выбирает путь между Doubaoтелефоном и Qianwen
 

На презентации Samsung Galaxy S26 в конце февраля Google и Samsung анонсировали, что на S26 появится первая система Screen Automation на базе Gemini — возможность, при которой модель может автоматически взаимодействовать с приложениями на телефоне: открывать приложения, распознавать интерфейсы, нажимать, вводить текст и выполнять цепочки действий, оставляя финальное подтверждение за пользователем.

По звучанию это похоже на «ассистентаоператора» из экосистемы Doubao, но технически и продуктово Google пошёл иным путём — смешанным, осторожноагрессивным и ориентированным на долгосрочное изменение роли Android в устройстве.

Что делает Gemini Screen Automation — техническая суть

Визуальная автоматизация GUI есть как резервный механизм: модель умеет читать пиксели экрана и симулировать действия пользователя, когда другой путь недоступен.

Но основной путь — запуск целевого приложения внутри локального виртуального песочника Android: Gemini «запускает» приложение в изолированной среде, где AI взаимодействует с приложением видимым и контролируемым образом. Пользователь видит процесс и в любой момент может прервать выполнение или взять управление.

Google ввёл новую систему интерфейсов AppFunctions — механизм, по которому сами приложения могут декларировать «функции», доступные для вызова AI (например: поиск ресторана, добавление товара в корзину, оформление заказа). Это по сути «вызов функций» (function calling) на уровне ОС, а не имитация кликов по экрану.

Важные ограничения на первом этапе: поддержка лишь ряда приложений (Lyft, Uber, GrubHub, DoorDash, Uber Eats, Starbucks), тестирование на Galaxy S26 и Pixel 10, а также лимиты использования по уровням подписки (ограниченное число автоматизаций в день для бесплатных и платных аккаунтов).

Почему это не просто «ещё один Doubao»

Сравним три подхода к тому, как AI «делает вещи» на смартфоне:

Doubao (скринагент): AI читает экран и имитирует касания. Сильная сторона — универсальность: работать может с любым приложением без специальной поддержки. Слабая — большие риски безопасности, приватности и конфликты с экосистемами приложений (платформы могут противиться автоматизации, бизнеслогикам и антиботмерам).

Qianwen: экосистемный диспетчер — AI вызывает внутренние сервисы и API внутри одной крупной экосистемы (например, Taobao, Alipay). Сильное преимущество — высокая надёжность, скорость и интеграция; недостаток — зависимость от границ экосистемы и слабая межплатформенная совместимость.

Gemini (Google): гибридная модель — приоритет системных AppFunctions (APIвызовы), резерв GUIавтоматизация. Это позволяет комбинировать надёжность и контроль с универсальностью в обходных случаях. При этом Google сознательно встроил ограничители доступа (песочница, белый список приложений, пользовательские лимиты) для снижения рисков.

Ключевой технологический смысл Gemini в телефоне — не просто «AI, который нажимает кнопки», а эволюция Android в сторону «интеллектуального диспетчера возможностей приложений». AppFunctions позволяет приложениям объявлять, какие «действия» у них можно вызывать программно; в будущем это даёт три важных эффекта:

Более эффективное, безопасное и надежное выполнение задач (вызов бизнесфункций напрямую вместо имитации GUI).

Возможность согласованного контроля доступа и аудита на уровне ОС (права, разрешения, видимость операций).

Путь к унификации навыков приложений — экосистема может договориться о стандартах «функций», и AIагенты будут обращаться к этим функциям в предсказуемом виде.

Android установлен на миллиардах устройств; радикальные эксперименты с автоматическим управлением интерфейсом несут высокие риски для пользователей и партнёров. Агрессивная GUIавтоматизация может нарушать правила платформ, обходить рекламные и платёжные механики, вызывать претензии разработчиков.

Песочница, видимый пользователю процесс, опции прерывания и подтверждения — всё это снижает риск фатальных автоматизированных действий (неправильные платежи, выдача персональных данных).

AppFunctions даёт Google шанс навести порядок и предложить разработчикам обоснованный, «одобренный» интерфейс для AIинтеграции, вместо хаотичного появления сторонних эмуляторов кликов.

Gemini в смартфоне — это не просто ещё одна «умная кнопка» для заказа пиццы. Это попытка постепенно перевести AIагентов из состояния внешних «скриптовпользователей» в уровень ОСмодуля: AI как диспетчер функций, а не как невидимый манипулятор экрана.

В сравнении с Doubao (максимальная универсальность через GUI) и Qianwen (глубокая интеграция в одну экосистему) Google избрал компромиссную стратегию: AppFunctions + песочница + GUIрезерв. Такая схема медленнее развертывается, но даёт шанс масштабировать автоматизацию безопасно и совместимо с экосистемой приложений.

В обозримом будущем успех этой стратегии зависит от трёх вещей: охвата AppFunctions среди приложений, удобства и прозрачности UX для пользователей и готовности платформ и регуляторов принять новые модели контроля за автоматизированными действиями.

Если Google удастся аккуратно вырастить экосистему «AIкаксистемнаяфункция», это действительно станет переломным моментом в том, как смартфон исполняет наши команды — не через симуляцию касаний, а через декларативные возможности приложений, управляемые интеллектуальным ядром ОС.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!