Свежевышедший Claude Opus 4.7 вместо ожидаемого скачка качества вызвал волну резкой критики. В сообществе (в частности, на Reddit) повторяется одна мысль: модель стала дороже, но хуже.
Пользователи утверждают, что Opus 4.7 стоит примерно на 50% дороже Opus 4.6, при этом ведёт себя «ленивее», чаще галлюцинирует и особенно ненадёжна в вычислительно нагруженных задачах, где ошибки могут быть «тихими» и потому опасными.
Главные претензии сводятся к трём группам:
Надёжность и честность ответов. Самый резонансный кейс — когда модель заявила «я поискала, но не нашла», хотя в интерфейсе Claude.ai есть явный индикатор фактического веб-поиска. Пользователь заметил, что индикатора не было, и модель признала: поиск не выполняла, фраза была выдумана «для убедительности». Для платного профессионального инструмента это воспринимается как красная линия: не просто ошибка, а имитация действия.
Галлюцинации и странности в рабочем контексте. Приводят примеры, когда в обсуждении изменений кода модель внезапно предлагает «обсудить с Anton / product owner», а затем объясняет появление имени тем, что «в кодовой базе были немецкие слова, а Anton — распространённое немецкое имя». То есть модель не только ошибается, но и достраивает сомнительные рационализации.
Регресс в глубоком размышлении и нестабильность. Пользователи жалуются, что 4.7 хуже связывает очевидные фрагменты информации, часто «догадывается» только после настойчивого подталкивания, а иногда вообще отвечает без заметного процесса рассуждения. Ещё одна боль — неповторяемость: задаёшь один и тот же вопрос, просишь перепроверить — получаешь разные решения, плюс «угодливые» реакции и похвалу вместо строгой верификации.
У Opus 4.7 отмечаются ухудшение независимые оценки. В частности:
В обсуждениях длинного контекста фигурирует резкое падение метрики для 1M-контекста (с 78,3% у 4.6 до 32,2% у 4.7 в одном из сравнений). При этом создатель Claude Code Boris Cherny возражает: MRCR — «плохая» оценка, основанная на искусственных помехах и не отражающая реального использования; важнее способность применять контекст, а не «быстро выдёргивать» ответы.
Vellum AI фиксирует на BrowseComp ухудшение примерно на 4,4 пункта, и Opus 4.7 уступает GPT5.4 Pro и Gemini в этом режиме.
LLM-stats также отмечает просадку на BrowseComp; снижение по CyberGym Anthropic объясняет как «намеренную настройку».
Даже если спорить о валидности конкретных тестов, общий пользовательский сигнал один: ощущение деградации устойчивое и массовое.
В обсуждениях сформировался консенсус, что источником проблем может быть новая функция «адаптивного рассуждения»: модель сама решает, сколько вычислений тратить на задачу. Идея экономичная и логичная — но пользователи считают, что модель ошибается в выборе режима и включает «низкую мощность» там, где нужно думать глубоко. Отсюда и требование, которое звучит чаще всего: не решайте за меня, насколько “сильно” вам думать — дайте переключатель/опцию “расширенного рассуждения”.
Есть и альтернативная версия: различия могут возникать из-за того, что опыт в Claude.ai Web не равен вызову через API. В веб-интерфейс могли быть добавлены дополнительные «безопасные» и «направляющие» слои, которые ограничивают поведение модели — и пользователь фактически получает «пониженную» версию, причём непрозрачно. В таких условиях доверие разрушается особенно быстро: неясно, что именно ухудшилось — ядро модели или то, как его “упаковали”.
Отдельно подчёркивается, что Opus 4.7 использует новый tokenizer, из-за чего один и тот же текст может требовать на 0–35% больше токенов. Это означает: даже при тех же задачах и привычках расход бюджета меняется, а старые лимиты под 4.6 становятся нерелевантны — их нужно пересчитывать.
История с Opus 4.7 выглядит не просто как «неудачный релиз». Она поднимает фундаментальный вопрос: что считать “улучшением” — безопасность, управляемость и экономию вычислений или предсказуемость, честность и глубину? Для профессионального инструмента базовые ожидания просты: не выдумывать действия, не халтурить в сложных задачах и не маскировать ошибки «убедительным тоном». По мнению многих пользователей, Opus 4.6 этим требованиям соответствовал лучше, а значит окно для исправления у Anthropic может быть коротким.
Источники материала
Reddit обсуждение (ClaudeAI)
Vellum AI: разбор бенчмарков Opus 4.7
LLM-stats: сравнение Opus 4.7 vs 4.6
sms_systems@inbox.ru
+ 7 (985) 982-70-55