🚀 2026-02-05 发布

GPT-5.3-Codex — 自我演进的代理编码模型

屠榜 SWE-Bench Pro / Terminal-Bench / OSWorld / GDPval;运行中实时 steering 不丢上下文;首个被自己用来训练自己的 Codex 模型。

模型时间线与定位

OpenAI 2026-02-05 发布 GPT-5.3-Codex,是 5.2-Codex 之后的迭代。同时演进 5.2-Codex 的前沿编码能力与 GPT-5.2 的推理 / 专业知识能力,整体快 25%。覆盖 Codex 全部表面:Codex 桌面 app、CLI、IDE 扩展、Codex Web。可用对象:付费 ChatGPT 套餐用户。API 接入按 OpenAI 安全审核节奏分阶段开放。

四项 SOTA 基准成绩

SWE-Bench Pro 56.8%(行业新高),Terminal-Bench 2.0 77.3%,OSWorld-Verified 64.7%,GDPval 创新高。SWE-Bench Pro 是更贴近真实仓库改造的基准,对比 SWE-Bench Verified(5.2-Codex 已达 80%)门槛显著更高。Terminal-Bench 衡量终端环境下的代理任务完成度,OSWorld 衡量操作系统级 GUI 任务。

实时 steering 与自我演进

可以在模型工作期间实时干预——在 Codex macOS app 观察其进度,中途追问、给反馈或纠正方向而不破坏工作流。这种交互模式让长时任务(如完整 PR 修复)从盲盒变为可控过程。OpenAI 也披露 Codex 团队用 5.3-Codex 早期版本帮助调试自身训练、管理部署、诊断评测结果——这是首个被自己用来训练自己的 Codex 模型。

选型:与 GPT-5.5 / Opus 4.7 怎么选

GPT-5.5(OpenAI 通用旗舰)擅长跨领域代理、写作、调研,是默认全能模型。GPT-5.3-Codex 是 GPT-5.5 体系内为编码深度优化的分支,长时编码任务 SOTA。Claude Opus 4.7 在 Python/Django 重构深度、长上下文 RAG 上更强。一句话决策:纯编码长任务选 5.3-Codex,编码 + 文档调研混合选 5.5,深度重构 Python 选 Opus 4.7。

FAQ

GPT-5.3-Codex 现在能在国内直接用吗?

OpenAI 官方渠道国内访问受限。通过 QCode.cc 的统一 API 通路可在国内透明接入 GPT-5.5 与 Codex 体系,套餐共享,无需自建跨境代理。

和 5.2-Codex 相比要不要立即升级?

如果你的任务以长时多步代理为主(端到端 PR、跨文件重构、终端任务)建议升级——基准都明显更强、25% 更快。若以短补全为主,差距不显著,可保持现状。

实时 steering 怎么用?

在 Codex macOS app 或 CLI 进行长任务时,模型工作期间窗口可输入新指令、补充上下文,模型会在不破坏当前推理树的情况下纳入新信息。这是 5.3-Codex 相对前代的关键交互升级。

通过 QCode 一站接入 GPT-5.3-Codex / GPT-5.5 / Opus 4.7

国内透明接入主流编码模型,统一计费,无需为每家厂商单独购买套餐。

立即开通 QCode 套餐