🚀 2026-02-05 发布

GPT-5.3-Codex — 自我演进的代理编码模型

屠榜 SWE-Bench Pro / Terminal-Bench / OSWorld / GDPval；运行中实时 steering 不丢上下文；首个被自己用来训练自己的 Codex 模型。

模型时间线与定位

OpenAI 2026-02-05 发布 GPT-5.3-Codex，是 5.2-Codex 之后的迭代。同时演进 5.2-Codex 的前沿编码能力与 GPT-5.2 的推理 / 专业知识能力，整体快 25%。覆盖 Codex 全部表面：Codex 桌面 app、CLI、IDE 扩展、Codex Web。可用对象：付费 ChatGPT 套餐用户。API 接入按 OpenAI 安全审核节奏分阶段开放。

四项 SOTA 基准成绩

SWE-Bench Pro 56.8%（行业新高），Terminal-Bench 2.0 77.3%，OSWorld-Verified 64.7%，GDPval 创新高。SWE-Bench Pro 是更贴近真实仓库改造的基准，对比 SWE-Bench Verified（5.2-Codex 已达 80%）门槛显著更高。Terminal-Bench 衡量终端环境下的代理任务完成度，OSWorld 衡量操作系统级 GUI 任务。

实时 steering 与自我演进

可以在模型工作期间实时干预——在 Codex macOS app 观察其进度，中途追问、给反馈或纠正方向而不破坏工作流。这种交互模式让长时任务（如完整 PR 修复）从盲盒变为可控过程。OpenAI 也披露 Codex 团队用 5.3-Codex 早期版本帮助调试自身训练、管理部署、诊断评测结果——这是首个被自己用来训练自己的 Codex 模型。

选型：与 GPT-5.5 / Opus 4.7 怎么选

GPT-5.5（OpenAI 通用旗舰）擅长跨领域代理、写作、调研，是默认全能模型。GPT-5.3-Codex 是 GPT-5.5 体系内为编码深度优化的分支，长时编码任务 SOTA。Claude Opus 4.7 在 Python/Django 重构深度、长上下文 RAG 上更强。一句话决策：纯编码长任务选 5.3-Codex，编码 + 文档调研混合选 5.5，深度重构 Python 选 Opus 4.7。

FAQ

GPT-5.3-Codex 现在能在国内直接用吗？

OpenAI 官方渠道国内访问受限。通过 QCode.cc 的统一 API 通路可在国内透明接入 GPT-5.5 与 Codex 体系，套餐共享，无需自建跨境代理。

和 5.2-Codex 相比要不要立即升级？

如果你的任务以长时多步代理为主（端到端 PR、跨文件重构、终端任务）建议升级——基准都明显更强、25% 更快。若以短补全为主，差距不显著，可保持现状。

实时 steering 怎么用？

在 Codex macOS app 或 CLI 进行长任务时，模型工作期间窗口可输入新指令、补充上下文，模型会在不破坏当前推理树的情况下纳入新信息。这是 5.3-Codex 相对前代的关键交互升级。

通过 QCode 一站接入 GPT-5.3-Codex / GPT-5.5 / Opus 4.7

国内透明接入主流编码模型，统一计费，无需为每家厂商单独购买套餐。

立即开通 QCode 套餐