🏆 Обновление бенчмарка Q2 2026

SWE-Bench Pro 2026 — реалистичный бенчмарк AI-моделей кодирования

GPT-5.3-Codex 56.8% SOTA, GPT-5.5 58.6%, GPT-5.2-Codex 80% Verified, Opus 4.7 — новый Fast Mode по умолчанию. О бенчмарке, чтении баллов и выборе модели по сценарию.

SWE-Bench Pro vs Verified — сам бенчмарк

SWE-Bench Verified (популярен с 2024): ~500 верифицированных людьми задач на исправление GitHub-issues. SWE-Bench Pro (мейнстрим с 2026): тот же подход, но сложнее — длиннее контекст, больше изменяемых файлов, ближе к реальному потоку PR. Verified упёрся в 80% (5.2-Codex), у Pro ещё ~40 пунктов запаса — это канонический бенчмарк. Terminal-Bench 2.0 измеряет терминальных агентов; OSWorld — задачи в GUI; GDPval — профессиональные знания.

Эволюция баллов Q1-Q2 2026

GPT-5.2-Codex (2026-01-14): SWE-Bench Verified 80.0%, Pro 56.4%. GPT-5.3-Codex (2026-02-05): Pro 56.8% (новый рекорд), Terminal-Bench 2.0 77.3%, OSWorld 64.7%. GPT-5.5 (Q2 2026): Pro 58.6% — снова на вершине. Claude Opus 4.7 (Q2 2026): теперь Fast Mode по умолчанию, общепризнанный лидер глубоких рефакторингов. Gemini 3 (март 2026): сильна в экосистеме Google, по Pro отстаёт.

Сравнение моделей по сценарию

Чистый балл Pro: GPT-5.5 > GPT-5.3-Codex > GPT-5.2-Codex > Opus 4.7 (Pro ниже, но реальные глубокие рефакторинги — лучшие). По сценариям: 1) мультифайловые правки Next.js/React → Cursor Composer 2.0; 2) глубокие рефакторинги Python/Django → Claude Opus 4.7 / Claude Code; 3) Rust / терминальные агенты / длинные PR → GPT-5.3-Codex; 4) кросс-доменные агенты (код + research + текст) → GPT-5.5.

Единый доступ ко всем моделям через QCode

QCode.cc предоставляет единый прозрачный API-шлюз ко всем основным моделям кодирования изнутри Китая — Claude (Opus 4.7 / Sonnet), GPT (5.5 / семейство Codex), Gemini (3) и др. Одна подписка, тарификация по использованию. В Claude Code, Codex CLI, Cursor, Cline, Continue смена модели — это изменение base URL и model id.

FAQ

58.6% на SWE-Bench Pro — это много? Как читать?

Pro заметно сложнее Verified; 58.6% — исторический максимум. Интуитивно: из 5 реальных GitHub-PR модель выполняет 3 end-to-end. С review и retry в проде — значительный прирост продуктивности.

Почему универсальный GPT-5.5 обходит специализированный 5.3-Codex на Pro?

Pro содержит заметную долю подзадач, требующих кросс-доменного рассуждения и понимания документов — здесь работает универсальность 5.5. Для чистых длинных задач кодирования, терминальных агентов и GUI-задач 5.3-Codex — выбор (SOTA на Terminal-Bench / OSWorld).

Балл Opus 4.7 на Pro не опубликован — как оценивать?

У Anthropic есть внутренние данные, но полный Pro не опубликован. Замеры сообщества на длинных Python-рефакторингах и длинноконтекстных RAG ставят Opus 4.7 в лидеры. Рекомендация: выбирать по сценарию — Python — Opus 4.7, чистые бенчмарки — GPT-5.5/5.3-Codex.

Связанные руководства

Доступ ко всем основным моделям через QCode

GPT-5.5 / 5.3-Codex / Opus 4.7 / Gemini 3 через единый шлюз QCode. Прозрачно из Китая, по использованию.

Подключить план QCode