Claude Opus 4.7: трейд-оффы, Extra High и новый характер

Claude Opus 4.7: трейд-оффы, Extra High и новый характер

Вокруг 4.7 сейчас будет много разборов. Ниже — не пересказ релиз-страницы, а то, на что я обратил внимание после её чтения и migration guide. Где 4.7 хуже 4.6, почему дефолт в Claude Code подняли до xhigh, что там с новым токенайзером. Оригинальная страница релиза — для контекста.

Не всё лучше 4.6

Открываешь таблицу бенчмарков, и первое, что бросается в глаза — это не лидерство 4.7 (оно ожидаемо). А то, что в нескольких местах 4.7 проседает относительно 4.6.

Конкретно:

БенчмаркOpus 4.6Opus 4.7Δ
Agentic search (BrowseComp)83.7%79.3%−4.4 п.п.
Cybersecurity vuln reproduction (CyberGym)73.8%73.1%−0.7 п.п.

Плюс harm-reduction advice (controlled substances) — «modestly weaker» по формулировке самого Anthropic, без цифр.

Agentic search на BrowseComp — это минус 4.4 процентных пункта. Не шум, не погрешность. И, к слову, 4.7 на этом бенчмарке проигрывает не только 4.6, но и GPT-5.4 Pro (89.3%), и Gemini 3.1 Pro (85.9%).

CyberGym — практически шум, меньше одного пункта.

Любопытно, что Anthropic показывают регрессии прямо в таблице — редкость для таких постов. Обычно релизы пишутся по шаблону «во всём лучше предыдущей модели», и ты дочитываешь до конца, не понимая, в чём подвох. Здесь по крайней мере честно обозначили: ради прогресса в одних задачах пришлось чем-то пожертвовать в других.

Extra High — новый дефолт в Claude Code

Между уровнями high и max появился новый — xhigh (Extra High). И в Claude Code дефолт подняли с medium прямо до xhigh — для всех планов.

Я последние несколько недель кодил на high. Чисто потому, что купил Max 200 и не добирал до лимита — «блин, ну, наверное, можно и High». Пробовал max — но он как будто сильно долго начинает думать, для интерактивной работы раздражает. На high ощущения более-менее. Не могу сказать, что я прочувствовал разницу между medium и high на конкретных задачах — недостаточно сравнительных кейсов, чтобы делать выводы.

А теперь самое интересное — в migration guide прямо объясняется, почему подняли дефолт:

Claude Opus 4.7 respects effort levels strictly, especially at the low end. At low and medium, the model scopes its work to what was asked rather than going above and beyond.

То есть раньше medium у Opus 4.6 часто «перерабатывал» сам — модель могла выдать больше, чем ты попросил. На 4.7 этого нет: просишь medium — получишь ровно medium. На сложных задачах это значит «недодумывает». Отсюда и рекомендация: поднимай дефолт, иначе потеряешь в качестве на нетривиальных задачах.

Так что повышение дефолта до xhigh читается не как способ подгрузить пользователей токенами, а как технически оправданная рекомендация — если верить объяснению из гайда. Оставите старые привычки — модель разочарует.

/ultrareview — три бесплатных, дальше непонятно

Новая команда в Claude Code. Запускает отдельную ревью-сессию — отдельный проход по свеженаписанному коду с флагированием багов.

Строго говоря, agentic code review у Anthropic — не совсем новинка. В марте они выкатили Code Review как research preview для Team и Enterprise: автоматический ревью каждого PR в GitHub, команда агентов ищет баги параллельно, верифицирует false positives, ранжирует по severity. Биллинг был token-based — $15–25 за PR. Судя по всему, /ultrareview — портативная версия того же подхода для индивидуального пользователя: тот же принцип, но вызывается вручную из Claude Code CLI, а не триггерится на GitHub PR.

В релиз-посте формулировка любопытная:

We’re giving Pro and Max Claude Code users three free ultrareviews to try it out.

Три бесплатных. На «попробовать». Звучит как будущая платная фича. Скорее всего, когда тестовый период закончится, это станет чем-то, что жрёт отдельный бюджет или доступно только на старших планах.

Честно говоря, звучит как фича для серьёзного прод-кода — ревью сложных изменений, миграций, security-чувствительных кусков. Я пишу код только под свои пет-проекты — пара штук параллельно. Не факт, что кейс промышленного code-review прямо сюда ложится. Но три бесплатных попытки — хороший повод поискать задачу, где это уместно.

Claude auto mode: наконец в Max

Я какое-то время собирался написать отдельный пост про auto mode. Фичу начали раскатывать на Team-плане ещё в марте, дальше были Enterprise и API — а обычный пользователь её не видел. Теперь её дропнули в Max.

Короткий контекст, чтобы было понятно, про что вообще речь. В Claude Code есть две крайности в работе с разрешениями. Слева — консервативный дефолт: каждая запись в файл, каждая bash-команда, каждый вызов MCP требует вашего «да». Надёжно, но за сессией сидишь и жмёшь y-y-y-y, как проклятый. Справа — --dangerously-skip-permissions: тотальный auto-approve без вопросов. Сами Anthropic пишут про этот режим прямо: «should not be used outside of isolated environments» — буквально только в песочнице.

Default

Conservative

y / n на каждый вызов

Каждая запись в файл, bash-команда и MCP-вызов требуют подтверждения. Надёжно, но за сессией сидишь и жмёшь y.

Middle path
Auto mode

Smart classifier

—auto (Max)

Отдельный классификатор пропускает безопасные действия молча, а рискованные — блокирует или поднимает запрос.

Risky

Skip permissions

—dangerously-skip-permissions

Тотальный auto-approve без проверок. Anthropic прямо: «only in isolated environments».

Спектр режимов разрешений в Claude Code — auto mode подсвечен как средний путь

Auto mode — средний путь. Перед каждым вызовом инструмента отдельный классификатор (важная деталь: не сама модель своим reasoning, а отдельный компонент безопасности) проверяет действие на потенциально деструктивные паттерны: массовое удаление файлов, эксфильтрацию данных, запуск подозрительного кода. Безопасное — пропускает молча, рискованное — блокирует или поднимает вам запрос на подтверждение.

Формулировка Anthropic:

Middle path that lets you run longer tasks with fewer interruptions while introducing less risk than skipping all permissions.

Нюанс: расширили только на Max, Pro пока без автомода. Если вы на Pro и читаете новость «auto mode в Claude Code» — это не про вас, подождите.

И честная оговорка от самих Anthropic — классификатор не идеален: может пропустить сомнительное, может заблокировать безобидное. Рекомендация — всё равно запускать в изолированной среде. Подробнее про устройство — в их блог-посте.

Попробую при первой же возможности — потому что это реально удобно. Но чуть-чуть стрёмно — первое время буду сидеть и смотреть, что оно делает.

Токенайзер: те же $5/$25, но ×1.0–1.35

Цена за токен не изменилась: $5 за миллион input, $25 за миллион output. Но есть нюанс — новый токенайзер.

В migration guide признают:

This new tokenizer may use roughly 1x to 1.35x as many tokens when processing text compared to previous models (up to ~35% more, varying by content).

То есть один и тот же input на 4.7 может превратиться в до 35% больше токенов, чем на 4.6. За те же деньги за токен. На типичных русских текстах я бы закладывался ближе к верхней границе — кириллица и так токенизируется менее эффективно, чем английский.

Плюс — сам Anthropic говорят:

Opus 4.7 thinks more at higher effort levels, particularly on later turns in agentic settings.

4.7 больше думает, особенно на поздних ходах в агентных сценариях. Больше thinking = больше output токенов. И то, и другое — в деньгах за один вызов.

И всё-таки на главном экране релиза обещают, что в сухом остатке будет дешевле. Формулировка:

Net effect is favorable — token usage across all effort levels is improved.

Логика: модель чаще решает задачу с первого раза, не ходит в тупики, меньше нужно повторных запросов. И даже если за один вызов она жжёт больше токенов — суммарно на решённую задачу получается меньше. Похожие обещания звучали и на прошлых релизах. Но лимиты последнее время скорее зажимали, чем отпускали, так что я бы особо не рассчитывал.

Звучит так, что меня это начнёт догонять только когда я начну упираться в недельный лимит подписки. Пока не упираюсь.

Меньше инструментов, больше собственной головы

Ещё один сдвиг, про который меньше пишут — а зря. Если «больше думает» — про время на один ход, то вот эта штука — про то, как модель вообще принимает решения.

В гайде две соседние строчки:

Claude Opus 4.7 has a tendency to use tools less often than Claude Opus 4.6 and to use reasoning more.

Claude Opus 4.7 tends to spawn fewer subagents by default.

Перевод: 4.7 меньше зовёт внешние инструменты (bash, web search, MCP) и меньше плодит субагенты. Больше решает своей головой. Для многих задач это действительно лучше — меньше шума, меньше обходных путей. Но если у вас был харнесс, который полагается на активное использование tool calling (агент, который постоянно ходит в поиск, например) — поведение может измениться. Anthropic прямо советуют для таких кейсов либо поднимать effort, либо явно прописывать в промпте, когда и как использовать инструменты.

Длина ответа — по задаче

Ещё одна мелочь, которая на длинной дистанции заметна. Response length теперь калибруется под сложность задачи:

This usually means shorter answers on simple lookups and much longer ones on open-ended analysis.

Простой вопрос — короткий ответ. Аналитическая задача — развёрнутая. Раньше, по моим ощущениям, дефолтом чаще была развёрнутость в любом случае.

Другой характер: direct, pushes back

И вот что зацепило отдельно:

Claude Opus 4.7 is more direct and opinionated, with less validation-forward phrasing and fewer emoji than Claude Opus 4.6’s warmer style.

Более прямой, менее «соглашательский», меньше эмодзи. Плюс в релизе процитировали пользователя:

Model pushes back during technical discussions to help me make better decisions.

Меньше «отличная идея!», «ты абсолютно прав!» — больше «подумай ещё вот про это». Для технических обсуждений — однозначно плюс. У меня в мастер-промпте давно прописана отдельная инструкция: меньше лести, не говори «отличный вопрос», возражай, если не согласен. Может, с 4.7 Опус наконец начнёт её слушаться.

Если 4.7 реально чаще возражает — это повышает качество разговора, особенно на неочевидных архитектурных решениях. Но если у вашего продукта тон — это часть UX (поддержка, коучинг, онбординг), где нужна тёплая энергия, — надо либо явно промптить «будь мягче», либо заложиться, что 4.7 будет звучать суховатее из коробки.

Отдельная, но родственная вещь: 4.7 ещё и буквальнее интерпретирует инструкции. По формулировке migration guide, модель «will not silently generalize an instruction from one item to another, and will not infer requests you didn’t make». Промпты, которые на 4.6 молча «дочитывали» ваши намерения, на 4.7 могут начать делать ровно то, что написано — и ничего больше. Если давно не перечитывали свои большие CLAUDE.md или системные промпты — сейчас хороший повод.

Практические выводы

По следам прочтения:

  • xhigh по дефолту в Claude Code — оставлю. Если заметно полезет расход, откачусь на high.
  • /ultrareview — при первой подходящей задаче. Три бесплатных попытки не хочется спалить на ерунде.
  • Auto mode — тестирую на первой подходящей задаче. Изолированная папка, первое время смотрю каждый шаг.
  • Мастер-промпт и длинные CLAUDE.md — перечитаю. Подозреваю, в паре мест 4.6 «дочитывал» молча, а 4.7 этого делать не будет.

Полная таблица бенчмарков

Та же таблица, что на странице релиза. На мобильном прокручивается вбок.

Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro Mythos Preview
Agentic codingSWE-bench Pro 64.3% 53.4% 57.7% 54.2% 77.8%
Agentic codingSWE-bench Verified 87.6% 80.8% 80.6% 93.9%
Agentic terminal codingTerminal-Bench 2.0 69.4% 65.4% 75.1%self-reported harness 68.5% 82.0%
Multidisciplinary reasoningHumanity’s Last Exam
46.9%no tools
54.7%with tools
40.0%no tools
53.3%with tools
42.7%no tools (Pro)
58.7%with tools (Pro)
44.4%no tools
51.4%with tools
56.8%no tools
64.7%with tools
Agentic searchBrowseComp 79.3% 83.7% 89.3%Pro 85.9% 86.9%
Scaled tool useMCP-Atlas 77.3% 75.8% 68.1% 73.9%
Agentic computer useOSWorld-Verified 78.0% 72.7% 75.0% 79.6%
Agentic financial analysisFinance Agent v1.1 64.4% 60.1% 61.5%Pro 59.7%
Cybersecurity vulnerability reproductionCyberGym 73.1% 73.8% 66.3% 83.1%
Graduate-level reasoningGPQA Diamond 94.2% 91.3% 94.4%Pro 94.3% 94.6%
Visual reasoningCharXiv Reasoning
82.1%no tools
91.0%with tools
69.1%no tools
84.7%with tools
86.1%no tools
93.2%with tools
Multilingual Q&AMMMLU 91.5% 91.1% 92.6%

Источник: anthropic.com/news/claude-opus-4-7. Mythos Preview — превью направления внутренних исследований Anthropic: цифры выше по многим пунктам, но в публичный релиз эту модель выпускать не планируют.

И честно

Я сразу побежал обновляться на 4.7. Я Anthropic-фанбой, верю, что ребята снова сделали лучше, — хотя сам ещё толком ничего не попробовал.

Мой поинт не «сначала подумайте, стоит ли обновляться». Поинт — хорошо понимать разницу хотя бы в той степени, в которой её объясняет сам производитель. Полчаса на release page и migration guide — и в голове уже есть калибровка: где ждать прыжка, где просадку, что такое новые дефолты, почему модель теперь иначе разговаривает. И где у вас лично что-то может начать вести себя не так, как вы привыкли.

Егор Соколов
Егор Соколов

Прошёл путь от долга в 2,5 млн ₽ до накоплений свыше 8 млн за 5 лет. В карьере — от продакт-менеджера до директора в Сбере, дважды запускал собственные компании.

Пишу о нейросетях и AI-инструментах, которые использую в работе и жизни. Тестирую новое — рассказываю, что реально работает.

Другие статьи