
最近 Reddit 的 r/codex 里有一篇很有参考价值的帖子。作者把 GPT-5.5 加入自己的 coding agent 测试阵容,和 GPT-5.3 Codex、GPT-5.4 放在一起,跑了 40 个真实工程任务。
这不是传统意义上的“刷题 benchmark”。它更接近真实开发:同一份需求交给不同 agent,在各自原生 harness 里完成实现,然后盲审 diff,看哪个实现更值得合并。
结论很直接:
GPT-5.5 xhigh 很强,但 GPT-5.5 不是所有档位都强。
如果只看模型名,很容易得出“5.5 全面强于 5.4”的粗糙判断;但如果把 reasoning tier 拆开看,结果完全不是这回事。

真正的变化:能力不再线性上升
图里的核心不是谁排第一,而是三条曲线的形状。
| 模型 / 档位 | default | high | xhigh | 关键观察 |
|---|---|---|---|---|
| GPT-5.3 Codex | 1622 | 1824 | 1853 | 从 default 到 high 提升明显,xhigh 只是小幅增加 |
| GPT-5.4 | 1754 | 1877 | 1870 | high 已经接近甚至略高于 xhigh |
| GPT-5.5 | 1742 | 1807 | 1994 | default 和 high 没有拉开,xhigh 才突然起飞 |
这张图最值得注意的是:GPT-5.5 的能力提升主要集中在 xhigh 档,而不是平均分布到每一个档位。
换句话说,GPT-5.5 不是简单的“新版本全面替代旧版本”。在这个测试里,GPT-5.5 default 低于 GPT-5.4 default,GPT-5.5 high 也低于 GPT-5.4 high。真正把差距拉开的,是 GPT-5.5 xhigh。
这对实际使用非常关键。因为很多人讨论模型时只说“5.5 比 5.4 强不强”,但在 Codex 这种 agent 场景里,更准确的问题应该是:
哪个模型 + 哪个推理档位 + 哪类任务,组合起来最划算?
5.5 xhigh 强,但不便宜
主帖里给出的中位运行成本大致是:
| Agent | 中位成本 |
|---|---|
| GPT-5.5 xhigh | $4.23 |
| GPT-5.5 high | $2.52 |
| GPT-5.5 default | $1.81 |
| GPT-5.4 high | $1.51 |
也就是说,GPT-5.5 xhigh 的确是这组测试里的最强 coding agent,但它的成本也明显更高。
这就带来一个非常现实的使用原则:
不要把 xhigh 当默认档。它更适合关键任务、复杂问题和最后攻坚。
如果只是改一个明确的小 bug、补一个简单表单、调整一个字段映射,直接上 xhigh 往往不是能力问题,而是成本结构不合理。你把最高成本的推理资源花在了低价值环节上。
更合理的方式是:
- 用低成本档位做读取、定位、初步分析;
- 用 high 或性价比更高的模型做常规实现;
- 只有在架构复杂、跨文件影响大、需求模糊、bug 难复现、前几轮失败时,再把 5.5 xhigh 拿出来。
一句话:
便宜模型负责读,贵模型负责想;普通档负责跑流程,xhigh 负责打硬仗。
为什么这个评测和其他 benchmark 不一样?
评论区有人质疑:这个结果和一些公开 benchmark 不一致。比如其他榜单里可能显示 5.4 xhigh 强于 5.4 high,或者 5.5 high 强于 5.4 high。
作者的回应很关键:不同评测反映的是不同的方法和任务分布。很多公开 benchmark 关注静态题目、合成任务或测试通过率;而他们更关注真实工程任务里的 diff 质量,最终判断标准是“这个实现值不值得合并”。
这点非常重要。
在真实项目里,测试通过不等于代码值得合并。一个 agent 可能写出能跑的代码,但同时引入以下问题:
- 修改范围过大;
- 把临时方案写进主流程;
- 忽略现有架构边界;
- 破坏 UI 一致性;
- 解决了表面 bug,却埋下维护成本;
- 自己补出需求里没有的“规格”。
所以,对 coding agent 来说,pass rate 只是底线,不是质量本身。
真正有用的评测应该看三件事:
- 是否解决了原始问题;
- 是否遵守项目现有架构;
- 是否生成了可以长期维护的 diff。
这也是为什么 workflow eval 比单纯 benchmark 更接近真实开发。
评论区暴露的真实痛点:前端仍然不稳
这篇帖子下面最有价值的,不只是主帖数据,还有用户评论里的实战反馈。
有人认为 GPT-5.5 的沟通风格、通用规划和 vibecode 体验比 5.4 更好,但 token 消耗也明显更高。也有人说低档和 medium/high/xhigh 之间差异很大,不同任务下体验会剧烈波动。
最值得前端开发者注意的是:不少评论都提到了 UI 和 CSS 问题。
典型反馈包括:
- 两列 div 对齐这种基础问题仍然可能需要多轮提示;
- GPT-5.5 有时会把自己前面做好的 UI 又改坏;
- 在旧会话里继续做 UI,模型可能突然丢失设计一致性;
- 重新开新会话,并重新接入 frontend skill 后,反而一次就修好。
这说明一个问题:前端质量不是单靠更强模型就能稳定解决的。
前端开发尤其依赖视觉一致性、布局约束、组件规范、状态细节和边界条件。模型在长上下文里很容易逐渐偏离原来的 UI 意图,尤其是在多轮修补之后,最后变成“越修越乱”。
所以做前端 UI 精修时,不应该只写一句“优化一下页面”。更稳的做法是给 agent 一套硬约束:
- 提供截图,而不是只描述问题;
- 明确页面的设计基准;
- 写清楚哪些区域不能动;
- 指定布局、间距、字号、组件状态;
- 要求每次修改后自查 diff;
- 禁止引入面向开发者的提示语;
- 用 checklist 验收,而不是让模型自由发挥。
尤其是复杂后台、控制台、工作流产品,不要指望模型凭感觉做出一致的高级感。要把设计规范变成可执行约束。
更强模型也会犯“方向错误”
评论区还有一个很有意思的负面反馈:GPT-5.5 代码能力更强,但有时会变得固执,甚至忽略 spec,或者在推理过程中自己创造规格。
这类问题在真实开发里非常危险。
因为它写出来的可能不是“烂代码”,而是“看起来不错但方向错了的代码”。这种代码最难处理。它可能结构完整、命名合理、测试能过,但解决的不是你真正要解决的问题。
对 coding agent 来说,最可怕的不是不会写,而是:
它把错误需求实现得很漂亮。
这也是为什么复杂任务不能只看最终代码,还要要求 agent 在动手前先输出:
- 它理解的任务边界;
- 本次不处理的内容;
- 将要修改的文件;
- 预期影响面;
- 验收标准;
- 回滚方式。
如果这一步错了,后面代码越强,偏得越远。
该怎么用:按任务分层,而不是按情绪开最高档
基于这组数据和评论区反馈,我更推荐把 Codex 使用方式拆成几类。
1. 明确小改动:不要浪费 xhigh
适合任务:
- 文案调整;
- 字段重命名;
- 简单样式修正;
- 明确 bug 的局部修复;
- 单文件、小范围改动。
这类任务重点是快、稳、少改。不要让 agent 重新理解整个世界,也不要给它过大的上下文。上下文越大,越容易引出不必要的修改。
2. 常规开发:5.4 high 仍然有性价比
从图里看,GPT-5.4 high 的评分非常接近 GPT-5.4 xhigh,而且高于 GPT-5.5 high。结合主帖成本,5.4 high 对常规工程任务仍然是很强的性价比档位。
适合任务:
- 常规功能开发;
- 中等规模重构;
- 后台表单、API、数据流补齐;
- 明确模块内的质量提升。
关键是控制任务边界。不要把“全项目优化”这种大口号丢给它,而是拆成可以验收的工程任务。
3. 复杂攻坚:5.5 xhigh 值得用
适合任务:
- 跨模块架构问题;
- 多轮失败后的 bug;
- 需求不完全清晰但影响范围大;
- 需要推理权衡的方案设计;
- 大规模重构前的技术路线判断;
- 最终合并前的高质量审核&查验。
5.5 xhigh 的价值不在于“帮你省钱”,而在于“减少错误方向上的时间浪费”。当一个问题如果做错会浪费一天甚至几天,xhigh 的成本就不算高。
4. 前端 UI:模型档位不是核心,验收机制才是核心
前端问题最好不要只靠 xhigh。更重要的是建立 UI 工作流:
- 截图输入;
- 设计规则输入;
- 页面分区说明;
- 改动范围限制;
- 移动端/桌面端分别验收;
- 状态保留、折叠记忆、刷新行为等隐性问题一起检查;
- 明确禁止“为了说明开发状态而污染正式产品文案”。
前端不是“写代码能力”的单点问题,而是产品审美、信息架构、交互状态和工程约束的综合问题。
对 Agent 工程的启发:上下文比模型更值得优化
这篇帖子真正有价值的地方,是它再次证明了一个事实:
模型越强,越不能粗暴喂上下文。
如果每次任务都让 agent 从头读取大量文件,token 会大量消耗在“看资料”上,而不是“做判断”上。尤其是 xhigh 这种高成本档位,拿来全量扫代码库,往往是最浪费的用法。
更合理的 Agent Runtime 应该是分层的:
- 检索层:先找相关文件、相关 diff、相关上下文;
- 压缩层:把代码库信息压成任务上下文包;
- 计划层:明确任务边界和验收标准;
- 实现层:只修改必要文件;
- 验证层:跑测试、查 diff、做 UI 回归;
- 审核&查验层:最后再用高档模型做关键判断。
这套流程比“直接上最强模型”更重要。
从成本角度看,未来 coding agent 的竞争不只是模型能力竞争,也会是上下文管理能力竞争。谁能把无效读取降下来,谁就能把更多 token 用在真正有价值的推理和实现上。
最后结论
这篇 Reddit 帖子最值得记住的不是“GPT-5.5 xhigh 第一”,而是下面这几个判断:
- GPT-5.5 的提升主要集中在 xhigh,不是所有档位都强。
- GPT-5.4 high 仍然是常规开发里的高性价比选择。
- xhigh 应该用于复杂攻坚,而不是默认打开。
- 前端 UI 质量不能只靠模型档位,需要截图、规范和验收机制。
- 真实工程里,diff 是否值得合并,比测试是否通过更重要。
- Agent 工作流的关键不是无脑堆模型,而是上下文筛选、任务分层和结果验证。
所以,GPT-5.5 xhigh 更像是一把重锤,不是一把螺丝刀。
真正成熟的使用方式,不是每个任务都开最高档,而是知道什么时候该用它,什么时候不该用它。
原文地址与说明
原文地址:
- Reddit 主帖:https://www.reddit.com/r/codex/comments/1t5ipjd/gpt55_xhigh_is_the_strongest_coding_agent_weve/
- Voratiq Leaderboard:https://voratiq.com/leaderboard/
相关说明:
- 本文基于 Reddit 主帖、评论区公开可见内容、帖内图表以及 Voratiq leaderboard 页面整理分析。
- 图表中的评分来自帖子图片,属于该测试团队在特定任务集下的结果,不代表 OpenAI 官方结论。
- 主帖作者也明确提示,样本量为 40 次运行,足以观察趋势,但不足以确定所有模型和档位的绝对排序。
- 该评测任务主要集中在 JS/TS runtime、tooling 和 UI 场景,因此不能直接外推到所有编程语言、所有项目类型和所有团队工作流。
- 如果用于正式发布,建议将图表重新绘制或使用自有截图,并保留原文链接,避免脱离上下文引用单一结论。


评论