Claude Sonnet 5, новая модель Anthropic для автономных ИИ-агентов

Claude Sonnet 5, новая модель Anthropic для автономных ИИ-агентов

Anthropic представила Claude Sonnet 5, позиционируя её как самую агентную версию Sonnet-класса. Новая модель выполняет сложные многошаговые задачи, которые раньше не доходили на предыдущих Sonnet-моделях, и показывает производительность, близкую к Opus 4.8, но по существенно более низким ценам.

В тестировании на задачах пользовательских интерфейсов (OSWorld-Verified) Sonnet 5 обеспечивает точность 78.5%, это строгое улучшение над Sonnet 4.6. На оценке мультиагентного поиска (BrowseComp) модель показывает существенное улучшение экономичности на средних уровнях усилия и может соответствовать Opus 4.8 на некоторых задачах при более высоких уровнях.

Модель стала доступна во всех планах: это дефолт для Free и Pro, и доступна для Max, Team, Enterprise. На Claude API она стоит $2 за миллион входящих токенов и $10 за выходящие (вводная цена через 31 августа 2026), затем $3 и $15 соответственно. Используется новый токенизер, который может увеличивать размер входа в 1.0, 1.35 раз, но вводная цена скомпенсирована так, чтобы переход был примерно нейтрален по стоимости.

По оценкам безопасности, Sonnet 5 показывает меньше нежелательных поведений, чем Sonnet 4.6, и в целом безопаснее для агентных контекстов. Однако кибербезопасность остаётся слабым местом, модель существенно хуже, чем Opus, на задачах разработки эксплойтов и других опасных кибертехник. Anthproic запустила Sonnet 5 с кибербезопасными гвардами по умолчанию (такие же, как у Opus 4.7 и 4.8, но менее строгие, чем у Fable 5).

Ключевые факты

  • Sonnet 5 выполняет сложные многошаговые задачи (кодирование, отладка, автоматизация), которые раньше требовали более дорогих моделей или останавливались на полпути
  • На оценке OSWorld-Verified (компьютерное использование) модель достигает 78.5%, что выше Sonnet 4.6 и приближается к Opus 4.8
  • Вводная цена $2/$10 за млн токенов (через август 2026), затем $3/$15, дешевле Opus при близкой производительности на средних уровнях
  • По оценкам безопасности Sonnet 5 безопаснее Sonnet 4.6 в отказе от вредоносных запросов и устойчивости к prompt injection, но по кибербезопасности существенно слабее Opus
  • Новый токенизер увеличивает размер входа на 1.0, 1.35×, но вводная цена скомпенсирована, чтобы переход был нейтрален по стоимости

Почему это важно

Claude Sonnet 5 находится на Парето-границе цена-производительность для агентного ИИ. Раньше для многошаговых автономных задач требовались дорогие модели Opus; теперь Sonnet 5 обещает выполнять эти задачи на ~50% дешевле при близкой результативности на средних уровнях сложности. Тысячи разработчиков используют Sonnet для агентов; эта модель, по отзывам ранних партнёров, доводит такие задачи до конца без остановок, проверяет результаты самостоятельно и работает с лучшей экономией.

Кому это важно

Компаниям, которые строят ИИ-агентов для автоматизации (RPA, кодирование, анализ данных, юридические работы, обработка страховок). На примерах: ClickHouse ускорил исследование данных, Lovable и Anthropic нашли модель достаточно отказчивой для безопасности при миллионах пользователей, Pace внедрила агентов в страховые рабочие потоки, юристы используют её для исследований и анализа. Разработчикам, которые выбирают между Sonnet и Opus по цене, Sonnet 5 сужает gap и часто может заменить Opus на ~50% экономии.

Как это применить

Для многошаговых задач выбирайте Sonnet 5 как стартовую модель, а не сразу Opus, на средних уровнях усилия (medium effort) она сопоставима по результативности, на высоких (high effort) часто соответствует Opus, а на простых задачах экономит деньги. На Claude API используйте claude-sonnet-5, настраивайте уровень усилия. На Claude Code и платформе она дефолт для Free/Pro. Для кибербезопасности остаётесь на Opus 4.8, Sonnet 5 здесь слабее. Проверьте рабочие流реходы: новый токенизер может изменить размер входа, пересчитайте лимиты, хотя вводная цена скомпенсирована.

Можно ли доверять

Информация идёт прямо из Anthropic, с ссылками на System Card и чартами evaluations. Цифры (78.5% OSWorld, 34.6% Humanity's Last Exam) обновлены в June 30 edition, это улучшение методологии, а не движение самой модели. Сравнение с Opus основано на официальных evaluations, но помните: чарты показывают разные уровни усилия и задачи; Opus может быть лучше на специфичных работах (кибер, science). Отзывы разработчиков звучат убедительно, но это, конечно, подборка successful cases от компании.

Риски и подводные камни

  1. Новый токенизер увеличивает размер входа на 1.0, 1.35×, вводная цена скомпенсирована, но к сентябрю цена поднимется ($3/$15), пересчитайте бюджеты. 2) Кибербезопасность: Sonnet 5 существенно хуже Opus и даже немного хуже Sonnet 4.6 на развитии эксплойтов (вероятно, из-за улучшения общего интеллекта, а не специфичного обучения); если кибер-работы критичны, остаётесь на Opus. 3) Гварды по умолчанию, менее строгие, чем у Fable 5, но есть, и Cyber Verification Program нужно включить вручную для организаций. 4) Rate limits подняты, но проверьте ваш tier, новая токенизация может изменить расчёт. 5) Ранние тесты показали, что модель иногда делает лишние шаги, но в целом сильнее прежде на follow-through.

«Claude Sonnet 5 дарует нашим агентам мощный слой исполнения для многошаговой инженерной работы. Она хорошо справляется с продолжительным кодированием, использованием инструментов и отладкой в беспорядочных технических контекстах, и особенно полезна в рабочих потоках, где follow-through и техническое обоснование имеют значение.»

— PartnerOne (ранний тестировщик Claude Sonnet 5)