Способность AI “видеть” может быть просто иллюзией

Способность AI “видеть” может быть просто иллюзией
 

Новая работа Стэнфорда показывает очень тревожную вещь: многие мультимодальные модели могут уверенно “видеть” и анализировать изображения, даже когда изображения им вообще не были переданы.

В одном проекте студент случайно оставил в коде ошибку, из-за которой модель фактически не получала изображение. По идее, система должна была бы выдать ошибку или хотя бы отказаться отвечать. Но этого не произошло.

Модель:

продолжала отвечать;

давала подробные рассуждения;

получала высокие баллы в тестах на понимание изображений.

Такой эффект авторы назвали mirage — “мираж”.

Обычная галлюцинация — это когда модель врёт на основе уже имеющихся данных.Но здесь хуже: модель вообще придумывает несуществующий вход и строит рассуждение так, будто он был реальным.

То есть она не просто ошибается, а имитирует сам акт восприятия.

Исследователи убрали изображения из набора визуальных задач и оставили только текстовые вопросы.

И оказалось, что топовые модели вроде:

GPT-5,

Gemini-3-Pro,

Claude Opus 4.5

в более чем 60% случаев всё равно давали очень подробные “визуальные” ответы.А если добавить подсказки, частота “миража” возрастала до 90% и выше.

Иными словами, модели могли очень убедительно описывать то, чего никогда не видели.

Учёные отдельно проверили медицинские сценарии:

рентген грудной клетки,

MRI мозга,

патология,

ECG,

дерматология.

Когда изображения не было, AI часто склонялся к тяжёлым и срочным диагнозам:

инфаркт,

меланома,

рак.

Это опасно, потому что при сбое загрузки изображения модель может самоуверенно выдать ложный диагноз вместо того, чтобы сказать, что данных недостаточно.

Причина в том, что современные модели обучаются в первую очередь:

предсказывать следующий token,

а не обязательно “сначала смотреть на изображение”.

Они очень хорошо учатся на шаблонах. Если вопрос похож на тот, где обычно есть картинка, модель часто просто достраивает ожидаемую структуру ответа.

То есть она решает не визуальную задачу, а языковую задачу с визуальным шаблоном.

Исследователи проверили это ещё жёстче: они обучили только текстовую модель на визуальном бенчмарке ReXVQA.

И эта модель:

обошла некоторые топовые мультимодальные системы;

в среднем превзошла даже человеческих радиологов более чем на 10%.

Это означает, что часть “высокой точности” на таких тестах может быть связана вовсе не с реальным зрением, а с:

текстовыми подсказками;

статистическими паттернами;

структурой задания.

Просто делать новые, более сложные тесты — недостаточно. Почему:

новые наборы данных быстро утекут в обучение следующих моделей;

у всех бенчмарков есть собственные текстовые паттерны;

модели отлично улавливают эти скрытые шаблоны.

Предложенное решение: B-Clean. Логика такая:

убрать изображения;

проверить, может ли модель всё ещё правильно отвечать;

если может — значит, этот вопрос не проверяет визуальное понимание;

такие вопросы удаляются;

остаются только те, которые без изображения решить нельзя.

После применения B-Clean к популярным визуальным бенчмаркам выяснилось, что:

примерно 74–77% вопросов были “нечестными” с точки зрения проверки зрения;

после очистки оценки многих лучших моделей резко упали;

результаты с 80–90 баллов превращались в 20–30 и ниже.

Высокий балл в мультимодальном тесте ещё не означает, что модель реально видит изображение.

Модель может:

очень уверенно говорить;

звучать профессионально;

давать длинные рассуждения;

но всё это ещё не доказывает, что она действительно опиралась на картинку.

Проблема не только в том, что AI ошибается. Проблема в том, что он может ошибаться, не показывая никакого признака, что вообще не видел входных данных.

Это особенно опасно там, где ошибка должна быть заметна:

в медицине,

в автономных системах,

в безопасности,

в критических интерфейсах.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!