Человек, который «научил» ChatGPT рисовать покитайски

Человек, который «научил» ChatGPT рисовать покитайски
 

После выхода GPT Image 2 пользователи заметили странную вещь: модель внезапно начала идеально работать с китайским текстом. Там, где раньше были нечитаемые символы, теперь — корректные иероглифы, аккуратная верстка и даже сложные инфографики.

За этим прорывом стоит один из исследователей OpenAI —Чэнь Боюань.

В отличие от громких фигур индустрии, он не строит публичный образ и редко появляется в медиа. Но именно он оказался одним из ключевых людей, стоящих за новой генерацией изображений в ChatGPT.

Главное изменение в GPT Image 2 — это не просто улучшение качества картинок. Модель научилась работать с изображением как с структурированной системой, а не набором пикселей.

Раньше нейросети могли:

красиво рисовать

имитировать стили

создавать фотореализм

Но ломались, когда в изображении появлялось что-то сложнее — текст, логика, структура.

Теперь ситуация изменилась. GPT Image 2 умеет:

корректно писать текст (в том числе китайский)

учитывать иерархию (картинка внутри картинки и т.д.)

связывать визуальные элементы со смыслом

строить логические визуальные конструкции

Например, модель может сгенерировать комикс с несколькими уровнями вложенности, добавить туда текст на разных языках и при этом сохранить смысловую связность всей сцены.

Проблема в том, что текст внутри изображения — это не просто «рисунок букв». Это:

язык

структура

контекст

расположение в пространстве

Для модели это означает необходимость одновременно понимать:

визуальную сцену

языковую информацию

связи между объектами

Именно такие задачи и лежат в центре исследований Чэня Боюаня.

В отличие от многих исследователей, сосредоточенных на улучшении качества генерации, Чэнь занимается более фундаментальными вопросами:

как модель понимает изображение

как связаны язык и визуальный мир

формирует ли ИИ внутреннюю «картину реальности»

Это направление известно как world models (модели мира). Идея простая: если ИИ действительно понимает мир, он должен не просто генерировать ответы, а:

предсказывать события

учитывать физику

понимать причинно-следственные связи

Например, должен «знать», что стеклянный стакан разобьётся при падении, а пластиковый — нет.

Среди ключевых работ, в которых участвовал Чэнь, выделяются два направления:

1. Diffusion Forcing. Попытка объединить два подхода:

пошаговую генерацию (как у языковых моделей)

целостную (как у диффузионных моделей)

Это позволяет модели одновременно:

держать структуру

и гибко генерировать детали

2. SpatialVLM. Работа над тем, чтобы модель начала реально понимать пространство:

расстояния

размеры

расположение объектов

То есть не просто «видеть», а рассуждать о сцене.

Прорыв с китайским языком — это не отдельный «фикс», а следствие всей этой работы.

Когда модель начинает:

понимать структуру изображения

учитывать иерархию

связывать текст с контекстом

она автоматически лучше работает с любыми языками — даже сложными, как китайский.

Поэтому GPT Image 2 умеет:

писать мелкие иероглифы

размещать текст в нужных местах

сохранять читаемость даже в сложных сценах

Интересно, что за этой технологией стоит относительно небольшая команда — около десятка человек. Среди них заметно много исследователей с китайскими именами, работающих над разными аспектами:

визуальные модели

обучение

оценка качества

архитектура

Это не гигантский конвейер, а скорее компактная исследовательская группа, где каждый отвечает за часть общей системы.

Сам Чэнь Боюань — довольно необычная фигура.

С одной стороны:

PhD MIT

опыт в DeepMind

работа в OpenAI

С другой — человек с очень «человеческими» интересами. Например, он любит bubble tea настолько, что даже делал рейтинг университетов США по качеству молочного чая.

Этот подход — разбирать сложное на понятные критерии — прослеживается и в его научной работе.

GPT Image 2 — это не просто ещё один генератор картинок. Это шаг к тому, чтобы изображение стало полноценным носителем информации, а не просто визуальным результатом.

Если раньше AI «рисовал», то теперь он начинает визуально мыслить.

А значит:

инфографика

обучение

интерфейсы

дизайн

— всё это будет меняться быстрее, чем кажется.

И, возможно, именно такие исследователи, как Чэнь Боюань, двигают эту трансформацию сильнее, чем самые громкие имена индустрии.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!