Представляем Claude Opus 4.7

Наша новая модель, Claude Opus 4.7, теперь доступна в общем доступе.

Opus 4.7 — это заметный шаг вперёд по сравнению с Opus 4.6 в области продвинутой разработки программного обеспечения, особенно на наиболее сложных задачах. Пользователи отмечают, что теперь могут уверенно передавать Opus 4.7 самые трудоёмкие задачи — те, которые раньше требовали постоянного контроля. Модель справляется со сложными, длительными задачами с точностью и последовательностью, строго следует инструкциям и находит способы верифицировать собственные результаты перед тем, как сообщить о них.

Модель также получила существенно улучшенное зрение: она обрабатывает изображения с более высоким разрешением. Она демонстрирует более высокий вкус и креативность при выполнении профессиональных задач, создавая интерфейсы, слайды и документы более высокого качества. И хотя она уступает по общим возможностям нашей самой мощной модели Claude Mythos Preview, по ряду бенчмарков она превосходит Opus 4.6.

На прошлой неделе мы анонсировали Project Glasswing, обозначив риски и преимущества AI-моделей в сфере кибербезопасности. Мы заявили, что выпуск Claude Mythos Preview останется ограниченным, а новые средства киберзащиты будут сначала протестированы на менее мощных моделях. Opus 4.7 — первая такая модель: её киберспособности не столь продвинуты, как у Mythos Preview (в процессе обучения мы экспериментировали с методами целенаправленного снижения этих возможностей). Opus 4.7 выпускается с защитными механизмами, которые автоматически обнаруживают и блокируют запросы, указывающие на запрещённое или высокорисковое использование в сфере кибербезопасности. Опыт реального развёртывания этих механизмов поможет нам двигаться к конечной цели — широкому выпуску моделей класса Mythos.

Специалисты по безопасности, желающие использовать Opus 4.7 в легитимных целях (исследование уязвимостей, пентестинг, red-teaming), приглашаются вступить в нашу новую программу Cyber Verification Program.

Opus 4.7 доступен сегодня во всех продуктах Claude и через наш API, Amazon Bedrock, Google Cloud's Vertex AI и Microsoft Foundry. Цены остаются такими же, как у Opus 4.6: $5 за миллион входных токенов и $25 за миллион выходных токенов. Разработчики могут использовать claude-opus-4-7 через Claude API.

Тестирование Claude Opus 4.7

Claude Opus 4.7 получил высокие оценки от наших тестировщиков раннего доступа:

В ходе раннего тестирования мы видим потенциал для значительного скачка для наших разработчиков с Claude Opus 4.7. Он обнаруживает собственные логические ошибки на этапе планирования и ускоряет выполнение — далеко за пределами возможностей предыдущих моделей Claude. Как финтех-платформа, обслуживающая миллионы потребителей и бизнесов в значительном масштабе, это сочетание скорости и точности может изменить правила игры. Clarence Huang, VP of Technology

Anthropic уже установила стандарт для моделей программирования, и Claude Opus 4.7 продвигает его ещё дальше как лучшая модель на рынке. В наших внутренних оценках она выделяется не только сырой мощностью, но и тем, насколько хорошо справляется с реальными асинхронными рабочими процессами — автоматизацией, CI/CD и длительными задачами. Она также глубже думает над проблемами и предлагает более взвешенную точку зрения, а не просто соглашается с пользователем. Igor Ostrovsky, Co-Founder and Chief Technology Officer

Claude Opus 4.7 — самая сильная модель, которую оценивал Hex. Она корректно сообщает об отсутствии данных вместо того, чтобы давать правдоподобные, но неверные ответы, и устойчива к ловушкам с противоречивыми данными, в которые попадает даже Opus 4.6. Это более умный и эффективный Opus 4.6: Opus 4.7 при низких усилиях примерно эквивалентен Opus 4.6 при средних. Caitlin Colgrove, Co-Founder and CTO

На нашем бенчмарке из 93 задач по программированию Claude Opus 4.7 повысил процент решений на 13% по сравнению с Opus 4.6, включая четыре задачи, которые не смогли решить ни Opus 4.6, ни Sonnet 4.6. В сочетании с более низкой медианной задержкой и строгим следованием инструкциям это особенно значимо для сложных длительных рабочих процессов разработки. Mario Rodriguez, Chief Product Officer

По нашему внутреннему бенчмарку исследовательских агентов, Claude Opus 4.7 демонстрирует наилучший базовый показатель эффективности для многошаговой работы. Он разделил первое место по общему баллу в наших шести модулях — 0,715 — и показал наиболее стабильную производительность на длинном контексте среди всех протестированных моделей. Michal Mucha, Lead AI Engineer, Applied AI

Claude Opus 4.7 расширяет границы того, что модели могут делать для исследования и выполнения задач. Anthropic явно оптимизировала модель для устойчивого рассуждения на длинных прогонах, и это проявляется в лидирующей на рынке производительности. Jeff Wang, CEO

Мы наблюдаем значительные улучшения в мультимодальном понимании Claude Opus 4.7 — от чтения химических структур до интерпретации сложных технических диаграмм. Поддержка более высокого разрешения помогает Solve Intelligence создавать лучшие в своём классе инструменты для патентных рабочих процессов в науках о жизни. Sanj Ahilan, Chief Research Officer

Claude Opus 4.7 выводит долгосрочную автономию на новый уровень в Devin. Он работает последовательно часами, преодолевает сложные проблемы вместо того, чтобы сдаваться, и открывает класс глубоких исследовательских задач, которые мы раньше не могли надёжно выполнять. Scott Wu, CEO

Для Replit Claude Opus 4.7 стал очевидным решением для обновления. Для задач, которые наши пользователи выполняют каждый день, мы наблюдали достижение того же качества при меньших затратах — более эффективный и точный при анализе логов и трассировок, поиске ошибок и предложении исправлений. Michele Catasta, President

Claude Opus 4.7 демонстрирует высокую содержательную точность на BigLaw Bench для Harvey — 90,9% при высоких усилиях, с лучшей калибровкой рассуждений в таблицах проверки и заметно более умной обработкой неоднозначных задач редактирования документов. Niko Grupen, Head of Applied Research

Claude Opus 4.7 — очень впечатляющая модель для программирования, особенно в части автономии и более творческого рассуждения. На CursorBench Opus 4.7 — это значительный скачок в возможностях: 70% против 58% у Opus 4.6. Michael Truell, Co-Founder and CEO

Для сложных многошаговых рабочих процессов Claude Opus 4.7 — явный шаг вперёд: плюс 14% к Opus 4.6 при меньшем количестве токенов и трети ошибок инструментов. Это первая модель, прошедшая наши тесты на неявные потребности, и она продолжает выполнение при сбоях инструментов, которые раньше останавливали Opus. Sarah Sachs, AI Lead

В наших оценках мы увидели двузначный рост точности вызовов инструментов и планирования в наших основных агентах-оркестраторах. Adithya Ramanathan, Head of Applied Research

На Rakuten-SWE-Bench Claude Opus 4.7 решает в 3 раза больше производственных задач, чем Opus 4.6, с двузначным ростом в качестве кода и качестве тестов. Yusuke Kaji, General Manager, AI for Business

Для рабочих нагрузок по проверке кода CodeRabbit Claude Opus 4.7 — самая точная модель из всех, что мы тестировали. Полнота улучшилась более чем на 10%, выявляя некоторые из наиболее трудно обнаруживаемых ошибок в наших самых сложных PR, при этом точность оставалась стабильной. David Loker, VP of AI

Для Super Agent от Genspark Claude Opus 4.7 точно попадает в три производственных дифференциатора, которые важны больше всего: устойчивость к зацикливанию, последовательность и корректное восстановление после ошибок. Kay Zhu, Co-Founder and CTO

Claude Opus 4.7 — значимый шаг вперёд для Warp. Opus 4.6 — одна из лучших моделей для разработчиков, и эта модель измеримо более тщательна сверх этого. Она прошла задачи Terminal Bench, которые не смогли решить предыдущие модели Claude. Zach Lloyd, Founder and CEO

Claude Opus 4.7 — лучшая в мире модель для создания дашбордов и интерфейсов с богатыми данными. Дизайнерский вкус по-настоящему удивляет — она делает выборы, которые я бы действительно выпустил в продакшн. Aj Orbach, Co-Founder and CEO

Claude Opus 4.7 — самая мощная модель, которую мы тестировали в Quantium. Наибольший прирост проявился там, где это важнее всего: глубина рассуждений, структурированная постановка проблем и сложная техническая работа. Ben Chan, Chief AI Officer

Claude Opus 4.7 ощущается как реальный скачок в интеллекте. Качество кода заметно улучшилось, она избавляется от бессмысленных функций-обёрток и резервных каркасов, которые раньше накапливались, и исправляет собственный код по ходу работы. Ben Lafferty, Senior Staff Engineer

Для работы с управлением компьютером, которая лежит в основе автономного пентестинга XBOW, новый Claude Opus 4.7 — это качественный скачок: 98,5% на нашем бенчмарке визуальной точности против 54,5% у Opus 4.6. Oege de Moor, CEO

Claude Opus 4.7 — надёжное обновление без регрессий для Vercel. Он феноменален в задачах программирования с одного раза, более корректен и полон, чем Opus 4.6, и заметно честнее в отношении собственных ограничений. Joe Haddad, Distinguished Software Engineer

Claude Opus 4.7 очень силён и превосходит Opus 4.6 с ростом успешности задач на 10–15% для Factory Droids, с меньшим количеством ошибок инструментов и более надёжным выполнением шагов валидации. Leo Tchourakov, Member of Technical Staff

Claude Opus 4.7 автономно создал полный движок text-to-speech на Rust с нуля — нейронная модель, SIMD-ядра, браузерная демонстрация — а затем пропустил собственный вывод через распознаватель речи для верификации соответствия Python-эталону. Месяцы работы старших инженеров, выполненные автономно. Sean Ward, CEO and Co-Founder

Claude Opus 4.7 прошёл три задачи TBench, которые не смогли решить предыдущие модели Claude, и находит исправления, которые упустила наша предыдущая лучшая модель, включая состояние гонки. Itamar Friedman, Co-Founder and CEO

На OfficeQA Pro от Databricks Claude Opus 4.7 демонстрирует значительно более сильное рассуждение над документами — на 21% меньше ошибок, чем у Opus 4.6, при работе с исходной информацией. Hanlin Tang, CTO of Neural Networks

Для Ramp Claude Opus 4.7 выделяется в рабочих процессах команд агентов. Мы наблюдаем более высокую точность ролей, следование инструкциям, координацию и сложное рассуждение, особенно в инженерных задачах, охватывающих инструменты, кодовые базы и контекст отладки. Austin Ray, Software Engineer

Claude Opus 4.7 измеримо лучше Opus 4.6 для более длительной работы по созданию приложений в Bolt — до 10% лучше в лучших случаях, без регрессий, которых мы привыкли ожидать от очень агентных моделей. Eric Simons, CEO and Founder

Ниже приведены некоторые основные моменты и заметки из нашего раннего тестирования Opus 4.7:

Следование инструкциям. Opus 4.7 существенно лучше следует инструкциям. Интересно, что это означает: промпты, написанные для более ранних моделей, теперь иногда могут давать неожиданные результаты — там, где предыдущие модели интерпретировали инструкции свободно или пропускали части, Opus 4.7 воспринимает их буквально. Пользователям следует соответствующим образом перенастроить свои промпты и окружения.
Улучшенная мультимодальная поддержка. Opus 4.7 обладает улучшенным зрением для изображений высокого разрешения: он принимает изображения до 2576 пикселей по длинной стороне (~3,75 мегапикселя) — более чем в три раза больше, чем предыдущие модели Claude. Это открывает широкий спектр мультимодальных применений, зависящих от тонких визуальных деталей: агенты управления компьютером, читающие плотные скриншоты, извлечение данных из сложных диаграмм и работа, требующая попиксельных ссылок.¹
Реальная работа. Помимо лидирующего результата на оценке Finance Agent (см. таблицу выше), наше внутреннее тестирование показало, что Opus 4.7 является более эффективным финансовым аналитиком, чем Opus 4.6, создавая строгие анализы и модели, более профессиональные презентации и более тесную интеграцию между задачами. Opus 4.7 также лидирует на GDPval-AA — сторонней оценке экономически ценной интеллектуальной работы в сферах финансов, права и других областях.
Память. Opus 4.7 лучше использует память на основе файловой системы. Он запоминает важные заметки в ходе длительной многосессионной работы и использует их для перехода к новым задачам, которые в результате требуют меньше начального контекста.

Графики ниже отображают дополнительные результаты оценки из нашего предрелизного тестирования в различных областях.

Безопасность и выравнивание

В целом Opus 4.7 демонстрирует профиль безопасности, схожий с Opus 4.6: наши оценки показывают низкий уровень нежелательного поведения, такого как обман, подхалимство и содействие злоупотреблениям. По некоторым показателям, например честности и устойчивости к вредоносным атакам типа «prompt injection», Opus 4.7 превосходит Opus 4.6; по другим (например, склонность давать чрезмерно подробные советы по снижению вреда от контролируемых веществ) Opus 4.7 несколько слабее. Наша оценка выравнивания пришла к выводу, что модель «в целом хорошо выровнена и заслуживает доверия, хотя и не идеальна в своём поведении». Обратите внимание, что Mythos Preview по-прежнему остаётся наиболее выровненной моделью из всех, что мы обучили, согласно нашим оценкам. Полное обсуждение оценок безопасности приведено в System Card Claude Opus 4.7.

Также запускается сегодня

Помимо самого Claude Opus 4.7, мы запускаем следующие обновления:

Больше контроля над усилиями: Opus 4.7 вводит новый уровень усилий xhigh («extra high») между high и max, предоставляя пользователям более тонкий контроль над компромиссом между рассуждением и задержкой на сложных задачах. В Claude Code мы повысили уровень усилий по умолчанию до xhigh для всех планов. При тестировании Opus 4.7 для задач программирования и агентных сценариев рекомендуем начинать с уровней high или xhigh.
На Claude Platform (API): помимо поддержки изображений более высокого разрешения, мы также запускаем task budgets в публичной бета-версии, предоставляя разработчикам способ управлять расходом токенов Claude, чтобы он мог расставлять приоритеты в работе на более длинных прогонах.
В Claude Code: Новая команда /ultrareview создаёт специальную сессию проверки, которая просматривает изменения и отмечает ошибки и проблемы дизайна, которые заметил бы внимательный рецензент. Мы предоставляем пользователям Pro и Max Claude Code три бесплатных ultrareview для пробного использования. Кроме того, мы расширили auto mode на пользователей Max. Auto mode — это новая опция разрешений, при которой Claude принимает решения от вашего имени, что позволяет выполнять более длительные задачи с меньшим количеством прерываний и с меньшим риском, чем если бы вы решили пропустить все разрешения.

Миграция с Opus 4.6 на Opus 4.7

Opus 4.7 является прямым обновлением Opus 4.6, но два изменения стоит учесть при планировании, поскольку они влияют на использование токенов. Во-первых, Opus 4.7 использует обновлённый токенизатор, который улучшает обработку текста моделью. Компромисс состоит в том, что один и тот же ввод может соответствовать большему количеству токенов — примерно в 1,0–1,35 раза в зависимости от типа контента. Во-вторых, Opus 4.7 больше думает на более высоких уровнях усилий, особенно на поздних ходах в агентных сценариях. Это повышает надёжность на сложных задачах, но означает, что модель производит больше выходных токенов.

Пользователи могут контролировать использование токенов различными способами: с помощью параметра effort, настройки task budgets или промптинга модели на более краткие ответы. В нашем собственном тестировании общий эффект благоприятен — использование токенов на всех уровнях усилий улучшилось на внутренней оценке программирования, как показано ниже — но мы рекомендуем измерить разницу на реальном трафике. Мы написали руководство по миграции, которое содержит дополнительные советы по обновлению с Opus 4.6 на Opus 4.7.

Сноски

¹ Это изменение на уровне модели, а не параметра API, поэтому изображения, которые пользователи отправляют Claude, будут просто обрабатываться с более высокой точностью. Поскольку изображения более высокого разрешения потребляют больше токенов, пользователи, которым не нужна дополнительная детализация, могут уменьшить разрешение изображений перед отправкой в модель.

Для GPT-5.4 и Gemini 3.1 Pro мы сравнивали с лучшей доступной версией модели через API в графиках и таблице.
MCP-Atlas: Оценка Opus 4.6 была обновлена с учётом пересмотренной методологии оценки от Scale AI.
SWE-bench Verified, Pro и Multilingual: Наши проверки на запоминание отмечают подмножество задач в этих оценках SWE-bench. Исключая задачи, показывающие признаки запоминания, преимущество Opus 4.7 над Opus 4.6 сохраняется.
Terminal-Bench 2.0: Мы использовали окружение Terminus-2 с отключённым мышлением. Все эксперименты использовали выделение ресурсов 1× гарантированных/3× максимальных, усреднённое по пяти попыткам на задачу.
CyberGym: Оценка Opus 4.6 была обновлена с первоначально сообщённых 66,6 до 73,8, поскольку мы обновили параметры нашего окружения для лучшего выявления киберспособностей.
SWE-bench Multimodal: Мы использовали внутреннюю реализацию как для Opus 4.7, так и для Opus 4.6. Оценки не сопоставимы напрямую с результатами публичного лидерборда.

Связанные материалы

Представляем Claude Design от Anthropic Labs

Сегодня мы запускаем Claude Design — новый продукт Anthropic Labs, который позволяет вам сотрудничать с Claude для создания отполированных визуальных материалов: дизайнов, прототипов, слайдов, одностраничников и многого другого.

Представляем Claude Opus 4.7

Представляем Claude Opus 4.7

Тестирование Claude Opus 4.7

Безопасность и выравнивание

Также запускается сегодня

Миграция с Opus 4.6 на Opus 4.7

Сноски

Связанные материалы

Представляем Claude Design от Anthropic Labs

Long-Term Benefit Trust Anthropic назначает Вас Нарасимхана в Совет директоров

Anthropic расширяет партнёрство с Google и Broadcom для нескольких гигаватт вычислительных мощностей следующего поколения