Пока мир обсуждал возможности моделей вроде Nano Banana, индустрия генерации изображений сделала еще один пугающий шаг вперед. В начале апреля на платформе LMSYS Arena под псевдонимами (maskingtape-alpha и др.) на несколько часов появились таинственные модели.
Анализ метаданных API и тесты пользователей позволили идентифицировать новинку как GPT Image 2 от OpenAI. Ранее DALL-E 2 и 3 уже были приговорены к отключению в мае 2026 года, и теперь стало ясно, кто придет им на смену.
Долгое время главной «ахиллесовой пятой» нейросетей был текст. Если DALL-E 3 путала буквы, а GPT Image 1.5 справлялась только с латиницей, то GPT Image 2 практически стерла границы. Модель научилась:
Идеально рендерить текст: не только английский, но и сложнейшие иероглифы (китайский, японский, корейский) — четко, с правильными штрихами и верной типографикой.
Создавать сверхреалистичные UI-скриншоты: интерфейсы банковских приложений, страницы YouTube или настройки софта выглядят так, будто это настоящие фотографии экрана или системные скриншоты.
Воспроизводить «мировые знания»: нейросеть понимает, как выглядит сайт OpenAI или навигация в iOS, располагая кнопки и шрифты с точностью до пикселя.
Раньше подделку можно было выявить по «пьяным» буквам или кривому расположению элементов интерфейса. GPT Image 2 делает подделку документов, банковских транзакций, переписок или официальных уведомлений делом нескольких секунд.
Риск: генерация «фотографии» паспорта или ID-карты с правильным шрифтом и верным расположением данных теперь доступна любому. Это делает визуальные подтверждения (скриншоты) в юридических или финансовых спорах абсолютно бесполезными.
Сравнение: модель обошла текущего лидера — Midjourney — во всем, что касается точности текста, следования инструкциям (prompt following) и реализма. Midjourney сохраняет лидерство лишь в «художественности» и эстетике.
Для дизайнеров и стартаперов это благо: можно создать реалистичный прототип приложения или «скриншот» работающего продукта для презентации инвесторам, не написав ни строчки кода. Однако для общества это означает начало эры тотального недоверия к изображениям.
Официальный релиз ожидается в середине мая 2026 года (одновременно с окончательным уходом DALL-E 3). Сейчас модель можно «поймать» в режиме случайного тестирования на LMSYS Arena.
Примеры эффективных промптов из материала:
Для UI: «фотореалистичный скриншот банковского приложения на iPhone 16, четко видны транзакции с датами и суммами, рука держит телефон в кафе».
Для упаковки: «фото товара — бутылка крафтового пива с этикеткой „Oakridge Brewing Co.“, детализированный текст состава и логотип, студийный свет».
Для городских сцен: «улица ночного Токио, неоновые вывески на двух языках (японский/английский), вывеска лапшичной „Ichiban Ramen — Est. 1987“».
Резюме: с выходом GPT Image 2 любая важная информация в виде картинки должна подвергаться сомнению. Единственным надёжным доказательством теперь будут только проверяемые цифровые подписи и прямые системные логи, а не «картинка с экрана».
sms_systems@inbox.ru
+ 7 (985) 982-70-55