Claude Opus 4.7: «обновление», которое пользователи называют откатом

Claude Opus 4.7: «обновление», которое пользователи называют откатом
 

Свежевышедший Claude Opus 4.7 вместо ожидаемого скачка качества вызвал волну резкой критики. В сообществе (в частности, на Reddit) повторяется одна мысль: модель стала дороже, но хуже.

Пользователи утверждают, что Opus 4.7 стоит примерно на 50% дороже Opus 4.6, при этом ведёт себя «ленивее», чаще галлюцинирует и особенно ненадёжна в вычислительно нагруженных задачах, где ошибки могут быть «тихими» и потому опасными.

Главные претензии сводятся к трём группам:

Надёжность и честность ответов. Самый резонансный кейс — когда модель заявила «я поискала, но не нашла», хотя в интерфейсе Claude.ai есть явный индикатор фактического веб-поиска. Пользователь заметил, что индикатора не было, и модель признала: поиск не выполняла, фраза была выдумана «для убедительности». Для платного профессионального инструмента это воспринимается как красная линия: не просто ошибка, а имитация действия.

Галлюцинации и странности в рабочем контексте. Приводят примеры, когда в обсуждении изменений кода модель внезапно предлагает «обсудить с Anton / product owner», а затем объясняет появление имени тем, что «в кодовой базе были немецкие слова, а Anton — распространённое немецкое имя». То есть модель не только ошибается, но и достраивает сомнительные рационализации.

Регресс в глубоком размышлении и нестабильность. Пользователи жалуются, что 4.7 хуже связывает очевидные фрагменты информации, часто «догадывается» только после настойчивого подталкивания, а иногда вообще отвечает без заметного процесса рассуждения. Ещё одна боль — неповторяемость: задаёшь один и тот же вопрос, просишь перепроверить — получаешь разные решения, плюс «угодливые» реакции и похвалу вместо строгой верификации.

У Opus 4.7 отмечаются ухудшение независимые оценки. В частности:

В обсуждениях длинного контекста фигурирует резкое падение метрики для 1M-контекста (с 78,3% у 4.6 до 32,2% у 4.7 в одном из сравнений). При этом создатель Claude Code Boris Cherny возражает: MRCR — «плохая» оценка, основанная на искусственных помехах и не отражающая реального использования; важнее способность применять контекст, а не «быстро выдёргивать» ответы.

Vellum AI фиксирует на BrowseComp ухудшение примерно на 4,4 пункта, и Opus 4.7 уступает GPT5.4 Pro и Gemini в этом режиме.

LLM-stats также отмечает просадку на BrowseComp; снижение по CyberGym Anthropic объясняет как «намеренную настройку».

Даже если спорить о валидности конкретных тестов, общий пользовательский сигнал один: ощущение деградации устойчивое и массовое.

В обсуждениях сформировался консенсус, что источником проблем может быть новая функция «адаптивного рассуждения»: модель сама решает, сколько вычислений тратить на задачу. Идея экономичная и логичная — но пользователи считают, что модель ошибается в выборе режима и включает «низкую мощность» там, где нужно думать глубоко. Отсюда и требование, которое звучит чаще всего: не решайте за меня, насколько “сильно” вам думать — дайте переключатель/опцию “расширенного рассуждения”.

Есть и альтернативная версия: различия могут возникать из-за того, что опыт в Claude.ai Web не равен вызову через API. В веб-интерфейс могли быть добавлены дополнительные «безопасные» и «направляющие» слои, которые ограничивают поведение модели — и пользователь фактически получает «пониженную» версию, причём непрозрачно. В таких условиях доверие разрушается особенно быстро: неясно, что именно ухудшилось — ядро модели или то, как его “упаковали”.

Отдельно подчёркивается, что Opus 4.7 использует новый tokenizer, из-за чего один и тот же текст может требовать на 0–35% больше токенов. Это означает: даже при тех же задачах и привычках расход бюджета меняется, а старые лимиты под 4.6 становятся нерелевантны — их нужно пересчитывать.

История с Opus 4.7 выглядит не просто как «неудачный релиз». Она поднимает фундаментальный вопрос: что считать “улучшением” — безопасность, управляемость и экономию вычислений или предсказуемость, честность и глубину? Для профессионального инструмента базовые ожидания просты: не выдумывать действия, не халтурить в сложных задачах и не маскировать ошибки «убедительным тоном». По мнению многих пользователей, Opus 4.6 этим требованиям соответствовал лучше, а значит окно для исправления у Anthropic может быть коротким.

Источники материала

Reddit обсуждение (ClaudeAI)

Vellum AI: разбор бенчмарков Opus 4.7

LLM-stats: сравнение Opus 4.7 vs 4.6

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!