🏆 2026 Q2 基准更新

SWE-Bench Pro 2026 — AI 编程模型的真实基准

GPT-5.3-Codex 56.8% SOTA、GPT-5.5 58.6%、GPT-5.2-Codex 80% Verified、Opus 4.7 已成 Fast Mode 默认。基准在哪、分数怎么解读、业务场景配模型。

SWE-Bench Pro vs Verified — 基准本身

SWE-Bench Verified(2024 年开始流行):人工验证的 GitHub issue 修复任务,~500 道。SWE-Bench Pro(2026 年起主流):在 Verified 基础上加强难度——更长上下文、更多文件改动、更接近真实 PR 工作流。Verified 分数 80% 已饱和(5.2-Codex),Pro 仍有 40 个百分点提升空间,是当前主流基准。Terminal-Bench 2.0 测终端代理任务;OSWorld 测 GUI 操作;GDPval 测专业知识任务。

2026 Q1-Q2 分数演进表

GPT-5.2-Codex(2026-01-14):SWE-Bench Verified 80.0%、SWE-Bench Pro 56.4%。GPT-5.3-Codex(2026-02-05):SWE-Bench Pro 56.8% 新高、Terminal-Bench 2.0 77.3%、OSWorld 64.7%。GPT-5.5(2026-Q2):SWE-Bench Pro 58.6% 反超。Claude Opus 4.7(2026-Q2):Fast Mode 默认升级,长重构任务质量公认领先。Gemini 3(2026-03):Google 系内强但 Pro 略低。

主流模型横评 — 分场景选型

纯 SWE-Bench Pro 分数:GPT-5.5 > GPT-5.3-Codex > GPT-5.2-Codex > Opus 4.7(Pro 略低但实战重构最深)。场景配模型:1) Next.js/React 多文件编辑 → Cursor Composer 2.0;2) Python/Django 深度重构 → Claude Opus 4.7 / Claude Code;3) Rust / 终端代理 / 长 PR → GPT-5.3-Codex;4) 跨领域代理(代码+调研+写作)→ GPT-5.5。

通过 QCode 统一接入所有主流模型

QCode.cc 提供统一 API 通路,国内透明接入 Claude(Opus 4.7 / Sonnet)、GPT(5.5 / Codex 系列)、Gemini(3)等主流编码模型。一个套餐共享,按用量计费。在 Claude Code、Codex CLI、Cursor、Cline、Continue 等客户端中切模型只改 base URL 与 model id 即可,配置一次跑全部。

FAQ

SWE-Bench Pro 58.6% 高吗?怎么解读?

Pro 比 Verified 难得多,58.6% 是历史最高。直观换算:5 个真实 GitHub PR 任务约能正确完成 3 个端到端。在生产环境配合人工 review + 重试机制可获得显著生产力提升。

为什么 GPT-5.5 反超专为编码优化的 5.3-Codex?

Pro 子任务包含较多需要跨域推理与文档理解的项,5.5 通用旗舰在这些任务上发挥更好。纯长时间编码、终端代理任务上 5.3-Codex 仍是首选(Terminal-Bench / OSWorld SOTA)。

Opus 4.7 SWE-Bench Pro 分数没公布,怎么选?

Anthropic 内部测过但官方未公布完整 Pro 分。社区实测在长 Python 重构、长上下文 RAG 类任务上 Opus 4.7 仍领先。建议按场景选:Python 深度重构选 Opus 4.7,纯 benchmark 看 5.5/5.3-Codex。

QCode 一站接入所有主流编码模型

GPT-5.5 / 5.3-Codex / Opus 4.7 / Gemini 3 通过 QCode 统一通路,国内透明接入,按量计费。

开通 QCode