🏆 2026 Q2 基准更新

SWE-Bench Pro 2026 — AI 编程模型的真实基准

GPT-5.3-Codex 56.8% SOTA、GPT-5.5 58.6%、GPT-5.2-Codex 80% Verified、Opus 4.7 已成 Fast Mode 默认。基准在哪、分数怎么解读、业务场景配模型。

SWE-Bench Pro vs Verified — 基准本身

SWE-Bench Verified（2024 年开始流行）：人工验证的 GitHub issue 修复任务，~500 道。SWE-Bench Pro（2026 年起主流）：在 Verified 基础上加强难度——更长上下文、更多文件改动、更接近真实 PR 工作流。Verified 分数 80% 已饱和（5.2-Codex），Pro 仍有 40 个百分点提升空间，是当前主流基准。Terminal-Bench 2.0 测终端代理任务；OSWorld 测 GUI 操作；GDPval 测专业知识任务。

2026 Q1-Q2 分数演进表

GPT-5.2-Codex（2026-01-14）：SWE-Bench Verified 80.0%、SWE-Bench Pro 56.4%。GPT-5.3-Codex（2026-02-05）：SWE-Bench Pro 56.8% 新高、Terminal-Bench 2.0 77.3%、OSWorld 64.7%。GPT-5.5（2026-Q2）：SWE-Bench Pro 58.6% 反超。Claude Opus 4.7（2026-Q2）：Fast Mode 默认升级，长重构任务质量公认领先。Gemini 3（2026-03）：Google 系内强但 Pro 略低。

主流模型横评 — 分场景选型

纯 SWE-Bench Pro 分数：GPT-5.5 > GPT-5.3-Codex > GPT-5.2-Codex > Opus 4.7（Pro 略低但实战重构最深）。场景配模型：1) Next.js/React 多文件编辑 → Cursor Composer 2.0；2) Python/Django 深度重构 → Claude Opus 4.7 / Claude Code；3) Rust / 终端代理 / 长 PR → GPT-5.3-Codex；4) 跨领域代理（代码+调研+写作）→ GPT-5.5。

通过 QCode 统一接入所有主流模型

QCode.cc 提供统一 API 通路，国内透明接入 Claude（Opus 4.7 / Sonnet）、GPT（5.5 / Codex 系列）、Gemini（3）等主流编码模型。一个套餐共享，按用量计费。在 Claude Code、Codex CLI、Cursor、Cline、Continue 等客户端中切模型只改 base URL 与 model id 即可，配置一次跑全部。

FAQ

SWE-Bench Pro 58.6% 高吗？怎么解读？

Pro 比 Verified 难得多，58.6% 是历史最高。直观换算：5 个真实 GitHub PR 任务约能正确完成 3 个端到端。在生产环境配合人工 review + 重试机制可获得显著生产力提升。

为什么 GPT-5.5 反超专为编码优化的 5.3-Codex？

Pro 子任务包含较多需要跨域推理与文档理解的项，5.5 通用旗舰在这些任务上发挥更好。纯长时间编码、终端代理任务上 5.3-Codex 仍是首选（Terminal-Bench / OSWorld SOTA）。

Opus 4.7 SWE-Bench Pro 分数没公布，怎么选？

Anthropic 内部测过但官方未公布完整 Pro 分。社区实测在长 Python 重构、长上下文 RAG 类任务上 Opus 4.7 仍领先。建议按场景选：Python 深度重构选 Opus 4.7，纯 benchmark 看 5.5/5.3-Codex。

QCode 一站接入所有主流编码模型

GPT-5.5 / 5.3-Codex / Opus 4.7 / Gemini 3 通过 QCode 统一通路，国内透明接入，按量计费。

开通 QCode