С применением ИИ-агентов датасет может становиться всё менее надёжным

С применением ИИ-агентов датасет может становиться всё менее надёжным
 

Исследование под руководством аспиранта Хэ Хуньюя из группы Лю Тяньбо (Национальный университет Сингапура) при участии специалистов из Гарварда, Стэнфорда, Йеля, Google и медицинских центров (включая Mayo Clinic) показало тревожную закономерность: когда клинические данные и отчёты активно дополняются или заменяются контентом, сгенерированным ИИ, и эти синтетические данные затем используются для переобучения новых моделей, в ходе многократных циклов «генерация→обучение→генерация» происходит постепенная потеря патологического разнообразия и падение диагностической надёжности.

Авторы собрали и проанализировали более 800 тыс. синтетических объектов и продемонстрировали эффекты на трёх уровнях: клинические тексты, визуальноязыковые отчёты (радиология) и синтез медицинских изображений.

Оригинальная статья: AIgenerated data contamination erodes pathological variability and diagnostic reliability

Всего исследовано свыше 800 000 синтетических объектов в трёх задачах: генерация клинических текстов, визуальноязыковые радиологические отчёты и синтез медицинских изображений.

Для многоуровневых экспериментов использовали реальные датасеты и задачи: 216 307 рентгенологических отчётов, 790 клинических заметок (i2b2), 1 000 офтальмологических карточек и 9 781 рентгенснимок грудной клетки. Команда привлекла экспертовврачей для структурированной проверки и оценки клинической полезности.

Ключевые наблюдения — «медицинская деградация» при самотренинге

Генерация клинических текстов: потеря языка и знаний

После четырёх поколений самотренинга словарный запас в разделе «Impression» радиологических отчётов сократился с ~12 078 уникальных токенов до ~200 — падение ≈98.9%.

Уникальные медицинские термины уменьшились на ≈66%; тексты стали формализованными и однообразными.

Модель при этом часто демонстрирует высокую уверенность (confident predictions), но реальная диагностическая информативность упала — возможность пропуска редких, но клинически значимых признаков возросла.

Визуальноязыковые отчёты (радиология): «якорение» по изображению ослабло

При обучении визуальноязыковой модели только на сгенерированных отчётах, при подаче реальных рентгенснимков, уникальность отчётов упала с 96.2% до 0.9%, словарь — с 8 186 до 94 токенов (опять ≈98.9% снижение).

Критично: доля опасных ошибок «no acute findings» (ошибочный ответ «без острых находок») при наличии угрожающих патологий выросла с 13.3% до 40.3%, при этом модель давала высокую уверенность в таких ошибочных заключениях — это создаёт «ложное спокойствие» клинициста.

Синтез медицинских изображений: ухудшение визуального качества и искажение патологий

Модельгенератор изображений, обученная с включением синтетики в цикле, показывала визуальную деградацию, искажение паттернов патологий и усиление демографических смещений (недопредставленность уязвимых групп, усиление перекосов по полу/возрасту/расе).

Массовое расширение синтетических данных в попытке «нарастить» объём не заменяет качество — оно усугубляет смещение и блеклость патологических сигналов.

Порождаемые моделью тексты и картинки отражают не всю сложность исходной медицины: редкие проявления и тонкие вариации встречаются реже в синтетике. Если такие сгенерированные элементы затем становятся частью корпуса для следующего поколения моделей, «хвосты» распределений (редкие, но важные патологии) постепенно исчезают.

В отсутствие строгой человеческой валидации цикл «генерация→обучение» превращается в пиррову победу — модели становятся всё более уверенными в «усреднённых», но менее информативных ответах, при этом клиническая чувствительность падает.

Эксперименты с врачебной оценкой подтвердили клиническую деградацию. Команда провела структурированную врачебную ревизию с правками сгенерированных выводов; врачебная оценка показала снижение клинической полезности и сигнализировала о рисках пропуска важных находок после нескольких поколений самотренинга.

Предложенные и проверенные контрмеры Исследователи протестировали три подхода и пришли к конкретным практическим выводам:

Смешанное обучение с реальными данными (recommended baseline)

При доле реальных данных ≥75% в обучающем наборе патологическое разнообразие и языковая достоверность существенно лучше сохраняются. Это наиболее эффективная и надёжная мера.

Qualityaware фильтрация (дополнение, не замена)

Фильтры качества, отбрасывающие низкокачественные синтетические записи, повышают эффективность использования ограниченного реального корпуса, но не могут заменить высокий процент реальных данных.

Массовое расширение синтетики — вредно

Простейшее увеличение объёма синтетических данных ускоряет деградацию и усиливает предвзятости; количество не компенсирует потерю качества.

Рекомендации для клиник, регуляторов и разработчиков

Ввести обязательную трассируемость происхождения данных (data provenance) в медицинских ИТсистемах: каждый документ/запись должен иметь метку «генерировано ИИ»/«проверено человеком» и версию источника.

Внедрить обязательную ручную или «человековрачебную» выборочную валидацию синтетических записей перед их добавлением в обучающий корпус. Добровольная практика — недостаточна.

Поддерживать минимальную долю реальных данных (авторы предлагают ≥75% в обучающем составе) для переобучения производственных моделей.

Разрабатывать и применять метрики, отслеживающие патологическое разнообразие, чувствительность к редким проявлениям и демографические сдвиги — не только «языковое качество» или поверхностные метрики.

При внедрении ИИ в клинические рабочие процессы обеспечивать прозрачность и механизмы отката: если производительность по клинически важным метрикам падает, доступ к автоматизированным заключениям должен быть приостановлен до корректировки.

Выводы — что это значит для медицины Исследование ставит весомый вопрос: массовая интеграция генеративного ИИ в клиническую документацию без строгой валидации и политики происхождения данных рискует «загрязнить» медицинские реестры и постепенно подорвать диагностическую надёжность будущих моделей.

Главная опасность — не в том, что ИИ «ошибается» время от времени, а в том, что систематическая и незаметная потеря редких, но критичных паттернов сделает такие ошибки частыми и труднообнаружимыми, поскольку модель будет уверена в своих ошибках.

Это исследование — тревожный сигнал для больниц, поставщиков ПО и регуляторов: нужно срочно внедрять политику контроля происхождения и качества данных, сочетать синтетические данные лишь с высокой долей проверенной реальной информации и пересмотреть практики массового самотренинга моделей в клиническом контексте.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!