После выхода GPT Image 2 пользователи заметили странную вещь: модель внезапно начала идеально работать с китайским текстом. Там, где раньше были нечитаемые символы, теперь — корректные иероглифы, аккуратная верстка и даже сложные инфографики.
За этим прорывом стоит один из исследователей OpenAI —Чэнь Боюань.
В отличие от громких фигур индустрии, он не строит публичный образ и редко появляется в медиа. Но именно он оказался одним из ключевых людей, стоящих за новой генерацией изображений в ChatGPT.
Главное изменение в GPT Image 2 — это не просто улучшение качества картинок. Модель научилась работать с изображением как с структурированной системой, а не набором пикселей.
Раньше нейросети могли:
красиво рисовать
имитировать стили
создавать фотореализм
Но ломались, когда в изображении появлялось что-то сложнее — текст, логика, структура.
Теперь ситуация изменилась. GPT Image 2 умеет:
корректно писать текст (в том числе китайский)
учитывать иерархию (картинка внутри картинки и т.д.)
связывать визуальные элементы со смыслом
строить логические визуальные конструкции
Например, модель может сгенерировать комикс с несколькими уровнями вложенности, добавить туда текст на разных языках и при этом сохранить смысловую связность всей сцены.
Проблема в том, что текст внутри изображения — это не просто «рисунок букв». Это:
язык
структура
контекст
расположение в пространстве
Для модели это означает необходимость одновременно понимать:
визуальную сцену
языковую информацию
связи между объектами
Именно такие задачи и лежат в центре исследований Чэня Боюаня.
В отличие от многих исследователей, сосредоточенных на улучшении качества генерации, Чэнь занимается более фундаментальными вопросами:
как модель понимает изображение
как связаны язык и визуальный мир
формирует ли ИИ внутреннюю «картину реальности»
Это направление известно как world models (модели мира). Идея простая: если ИИ действительно понимает мир, он должен не просто генерировать ответы, а:
предсказывать события
учитывать физику
понимать причинно-следственные связи
Например, должен «знать», что стеклянный стакан разобьётся при падении, а пластиковый — нет.
Среди ключевых работ, в которых участвовал Чэнь, выделяются два направления:
1. Diffusion Forcing. Попытка объединить два подхода:
пошаговую генерацию (как у языковых моделей)
целостную (как у диффузионных моделей)
Это позволяет модели одновременно:
держать структуру
и гибко генерировать детали
2. SpatialVLM. Работа над тем, чтобы модель начала реально понимать пространство:
расстояния
размеры
расположение объектов
То есть не просто «видеть», а рассуждать о сцене.
Прорыв с китайским языком — это не отдельный «фикс», а следствие всей этой работы.
Когда модель начинает:
понимать структуру изображения
учитывать иерархию
связывать текст с контекстом
она автоматически лучше работает с любыми языками — даже сложными, как китайский.
Поэтому GPT Image 2 умеет:
писать мелкие иероглифы
размещать текст в нужных местах
сохранять читаемость даже в сложных сценах
Интересно, что за этой технологией стоит относительно небольшая команда — около десятка человек. Среди них заметно много исследователей с китайскими именами, работающих над разными аспектами:
визуальные модели
обучение
оценка качества
архитектура
Это не гигантский конвейер, а скорее компактная исследовательская группа, где каждый отвечает за часть общей системы.
Сам Чэнь Боюань — довольно необычная фигура.
С одной стороны:
PhD MIT
опыт в DeepMind
работа в OpenAI
С другой — человек с очень «человеческими» интересами. Например, он любит bubble tea настолько, что даже делал рейтинг университетов США по качеству молочного чая.
Этот подход — разбирать сложное на понятные критерии — прослеживается и в его научной работе.
GPT Image 2 — это не просто ещё один генератор картинок. Это шаг к тому, чтобы изображение стало полноценным носителем информации, а не просто визуальным результатом.
Если раньше AI «рисовал», то теперь он начинает визуально мыслить.
А значит:
инфографика
обучение
интерфейсы
дизайн
— всё это будет меняться быстрее, чем кажется.
И, возможно, именно такие исследователи, как Чэнь Боюань, двигают эту трансформацию сильнее, чем самые громкие имена индустрии.
sms_systems@inbox.ru
+ 7 (985) 982-70-55