На презентации Samsung Galaxy S26 в конце февраля Google и Samsung анонсировали, что на S26 появится первая система Screen Automation на базе Gemini — возможность, при которой модель может автоматически взаимодействовать с приложениями на телефоне: открывать приложения, распознавать интерфейсы, нажимать, вводить текст и выполнять цепочки действий, оставляя финальное подтверждение за пользователем.
По звучанию это похоже на «ассистентаоператора» из экосистемы Doubao, но технически и продуктово Google пошёл иным путём — смешанным, осторожноагрессивным и ориентированным на долгосрочное изменение роли Android в устройстве.
Что делает Gemini Screen Automation — техническая суть
Визуальная автоматизация GUI есть как резервный механизм: модель умеет читать пиксели экрана и симулировать действия пользователя, когда другой путь недоступен.
Но основной путь — запуск целевого приложения внутри локального виртуального песочника Android: Gemini «запускает» приложение в изолированной среде, где AI взаимодействует с приложением видимым и контролируемым образом. Пользователь видит процесс и в любой момент может прервать выполнение или взять управление.
Google ввёл новую систему интерфейсов AppFunctions — механизм, по которому сами приложения могут декларировать «функции», доступные для вызова AI (например: поиск ресторана, добавление товара в корзину, оформление заказа). Это по сути «вызов функций» (function calling) на уровне ОС, а не имитация кликов по экрану.
Важные ограничения на первом этапе: поддержка лишь ряда приложений (Lyft, Uber, GrubHub, DoorDash, Uber Eats, Starbucks), тестирование на Galaxy S26 и Pixel 10, а также лимиты использования по уровням подписки (ограниченное число автоматизаций в день для бесплатных и платных аккаунтов).
Почему это не просто «ещё один Doubao»
Сравним три подхода к тому, как AI «делает вещи» на смартфоне:
Doubao (скринагент): AI читает экран и имитирует касания. Сильная сторона — универсальность: работать может с любым приложением без специальной поддержки. Слабая — большие риски безопасности, приватности и конфликты с экосистемами приложений (платформы могут противиться автоматизации, бизнеслогикам и антиботмерам).
Qianwen: экосистемный диспетчер — AI вызывает внутренние сервисы и API внутри одной крупной экосистемы (например, Taobao, Alipay). Сильное преимущество — высокая надёжность, скорость и интеграция; недостаток — зависимость от границ экосистемы и слабая межплатформенная совместимость.
Gemini (Google): гибридная модель — приоритет системных AppFunctions (APIвызовы), резерв GUIавтоматизация. Это позволяет комбинировать надёжность и контроль с универсальностью в обходных случаях. При этом Google сознательно встроил ограничители доступа (песочница, белый список приложений, пользовательские лимиты) для снижения рисков.
Ключевой технологический смысл Gemini в телефоне — не просто «AI, который нажимает кнопки», а эволюция Android в сторону «интеллектуального диспетчера возможностей приложений». AppFunctions позволяет приложениям объявлять, какие «действия» у них можно вызывать программно; в будущем это даёт три важных эффекта:
Более эффективное, безопасное и надежное выполнение задач (вызов бизнесфункций напрямую вместо имитации GUI).
Возможность согласованного контроля доступа и аудита на уровне ОС (права, разрешения, видимость операций).
Путь к унификации навыков приложений — экосистема может договориться о стандартах «функций», и AIагенты будут обращаться к этим функциям в предсказуемом виде.
Android установлен на миллиардах устройств; радикальные эксперименты с автоматическим управлением интерфейсом несут высокие риски для пользователей и партнёров. Агрессивная GUIавтоматизация может нарушать правила платформ, обходить рекламные и платёжные механики, вызывать претензии разработчиков.
Песочница, видимый пользователю процесс, опции прерывания и подтверждения — всё это снижает риск фатальных автоматизированных действий (неправильные платежи, выдача персональных данных).
AppFunctions даёт Google шанс навести порядок и предложить разработчикам обоснованный, «одобренный» интерфейс для AIинтеграции, вместо хаотичного появления сторонних эмуляторов кликов.
Gemini в смартфоне — это не просто ещё одна «умная кнопка» для заказа пиццы. Это попытка постепенно перевести AIагентов из состояния внешних «скриптовпользователей» в уровень ОСмодуля: AI как диспетчер функций, а не как невидимый манипулятор экрана.
В сравнении с Doubao (максимальная универсальность через GUI) и Qianwen (глубокая интеграция в одну экосистему) Google избрал компромиссную стратегию: AppFunctions + песочница + GUIрезерв. Такая схема медленнее развертывается, но даёт шанс масштабировать автоматизацию безопасно и совместимо с экосистемой приложений.
В обозримом будущем успех этой стратегии зависит от трёх вещей: охвата AppFunctions среди приложений, удобства и прозрачности UX для пользователей и готовности платформ и регуляторов принять новые модели контроля за автоматизированными действиями.
Если Google удастся аккуратно вырастить экосистему «AIкаксистемнаяфункция», это действительно станет переломным моментом в том, как смартфон исполняет наши команды — не через симуляцию касаний, а через декларативные возможности приложений, управляемые интеллектуальным ядром ОС.
sms_systems@inbox.ru
+ 7 (985) 982-70-55