Предыдущая публикация

AI Wiz

19 янв

Claude Opus 4.5: первая модель, превысившая 80% на SWE-bench

23 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — флагманскую модель, которая стала первой в мире, преодолевшей планку 80% решённых реальных задач программирования. Теперь доступна в AI Wiz.

Рекорд в программировании

SWE-bench Verified: 80.9% (405 из 500 задач)

Для сравнения:

Claude Sonnet 4.5: 77.2%

GPT-5.1/5.2: ~76-77%

Gemini 3 Pro: ~76%

Terminal-Bench (сложные задачи в терминале): 59.3%
Это на 12 пунктов выше GPT-5.1 (47.6%) и на 5 пунктов выше Gemini 3 Pro (54.2%)

Opus 4.5 показывает уровень сильного senior-разработчика на реальных production-задачах из open-source проектов.

Hybrid Reasoning: два режима мышления
Claude Opus 4.5 — hybrid reasoning-модель, которая работает в двух режимах.

Standard (быстрый):
Отвечает сразу для простых задач — скорость и экономия

Extended thinking (глубокий):
Модель сначала "думает", планирует шаги, проверяет выводы — точность на сложных задачах

Огромный контекст
200 000 токенов стандартно — это примерно 400 страниц текста или целая кодовая база.

Context awareness: Модель "знает", сколько контекста осталось, и планирует длину ответов соответственно — не обрывает важную информацию на середине.

Компьютер как инструмент
Claude Opus 4.5 — лучшая модель Anthropic для computer use:

Управляет браузером, офисными приложениями, IDE, терминалом

Новая операция zoom — приближает области экрана для чтения мелкого текста

Выстраивает цепочки действий через разные инструменты

Работает как оркестратор для команды саб-агентов

Офисная автоматизация на новом уровне
Claude Opus 4.5 показывает +20% точности и +15% эффективности в работе с Excel и финансовым моделированием.

Excel:
Строит рабочие финансовые модели с формулами, named ranges, проверками ошибок и пояснениями

Презентации:
Превращает PDF-отчёты в презентации для руководства со структурой и визуализацией

Документы:
Анализирует большие отчёты, извлекает ключевую информацию, структурирует выводы

Безопасность и точность

Omniscience Index: 2-е место по точности и низкому уровню галлюцинаций среди всех моделей

Prompt-injection защита: В 3 раза лучше защита от непрямых атак, чем у GPT-5.1 и Gemini 3 Pro — только 25% успешных атак против 80%+ у конкурентов

Constitutional AI: Модель обучена с фокусом на безопасность и этические нормы — меньше вредного контента, больше осознанных отказов

Для каких задач лучше всего

Программирование:
Рефакторинг, миграции, поиск сложных багов, анализ архитектуры — на уровне senior-инженера

Агентные сценарии:
Автономные помощники, которые планируют действия, используют инструменты, работают часами без участия человека

Бизнес-аналитика:
Финансовые модели, обработка больших отчётов, стратегические документы, презентации

Исследования:
Анализ десятков документов, синтез информации, поиск связей между удалёнными частями текста

Сложные рассуждения:
Многошаговая логика, математика, задачи, требующие проверки промежуточных выводов

Сравнение с конкурентами

По программированию: Лидер — 80.9% против ~76-77% у всех остальных

По общим знаниям (MMLU-Pro): Паритет — ~90.8% против ~91% у GPT-5 и Gemini

По безопасности: Лучшая защита от атак и низкий уровень галлюцинаций

Claude Opus 4.5 уже доступна в AI Wiz — протестируйте первую модель, преодолевшую планку 80% на реальных задачах программирования: https://aiwiz.ru/trial

#AIWiz #ClaudeOpus45 #Anthropic

Нет комментариев

Новые комментарии

Для того чтобы оставить комментарий, войдите или зарегистрируйтесь

Следующая публикация