背景

OpenAI 给 Anthropic 的产品做了官方插件。这事儿在科技圈挺罕见的。

3 月 30 日,OpenAI 在 GitHub 发布了 codex-plugin-cc,一个让 Codex 直接在 Claude Code 里运行的官方集成。Apache 2.0 许可,文档齐全,维护积极。

这不是慈善。据报道 Claude Code 的年化收入已达数十亿美元级别,打不过就嵌入。但更有意思的是背后的趋势:AI 编程工具市场没有走向赢者通吃,反而自己长出了一个三层互补栈。

三层栈:编排、执行、验证

高级工程师现在这么用 AI 工具:

  • Cursor 做编排:在 Agents Window 里定义任务,拆分子任务,并行调度多个 agent,切换不同环境(本地/远程/容器)
  • Claude Code 做执行:真正写代码、改文件、跑测试,干重活
  • Codex 做验证:审查 Claude Code 写的代码,挑毛病,压力测试

这不是谁设计的,是用户自己摸索出来的工作流。就像当年 Prometheus(指标)+ Grafana(仪表盘)+ PagerDuty(告警)那样,每个工具专注一个领域,组合起来比单一工具强。

AgentUpdate.ai 的报道把这个类比说得很清楚:「这些工具不是在收敛,而是在专业化并集成。」

为什么是这三个

不是巧合,是各自找到了生态位。

Cursor 3 的核心变化:从代码编辑器变成 Agent 编排层。4 月 2 日发布的 Cursor 3,最大的更新不是写代码更快,而是 Agents Window——支持并行 agent 执行、多环境切换、模型无关调度。你可以同时让三个 agent 干三件事,一个在本地跑测试,一个在远程服务器部署,一个在容器里调试。

Claude Code 的优势:执行力强,文件操作可靠。据行业分析显示,Claude Code 占所有公共 GitHub commit 的约 4%,预计年底超 20%。Pragmatic Engineer 调查里 46% 开发者选它为「最受喜爱」工具。因为它不只是生成代码,它真的会改文件、提交 PR、跑 CI/CD。

Codex 的定位:验证和审查。据报道周活跃用户已达数百万级别,开源仓库在 GitHub 上积累了数万 stars。它的强项不是写代码,是挑毛病——代码审查、安全扫描、性能分析。

三个工具各有所长,组合起来覆盖了「想→做→查」的完整流程。

codex-plugin-cc:打不过就嵌入

OpenAI 为什么给竞品做官方插件?因为 Claude Code 太大了,年化收入据行业分析已达数十亿美元级别,这个体量打不动。与其让用户在两个工具之间手动切换,不如直接嵌进去。

codex-plugin-cc 本质是一个 MCP server(Model Context Protocol),提供 6 个斜杠命令:

命令 功能
/codex:review 代码审查
/codex:adversarial-review 压力测试,故意挑刺
/codex:rescue 把任务委派给 Codex 执行
/codex:explain 解释代码逻辑
/codex:security 安全扫描
/codex:performance 性能分析

最关键的是 /codex:adversarial-review。这个命令让 Codex 用「对抗性」的视角审查代码——不是礼貌地提建议,而是故意找茬,找边界条件、找潜在 bug、找性能瓶颈。这解决了 AI 的「谄媚问题」。

跨提供商审查:解决 AI 的自我确认偏差

AI 审查自己的输出,容易陷入自我确认——它倾向于认可和自己训练目标一致的代码。Claude Code 写的代码,让 Claude 自己审查,它倾向于说「看起来不错」。不是故意偏袒,是模型的训练目标就是生成「合理」的输出,审查时也会用同样的标准。

用另一个公司的模型来审查,效果好得多。OpenAI 的 Codex 审查 Anthropic 的 Claude Code 输出,没有「自家人」的包袱,挑毛病更狠。

Daniel Vaughan 的分析里提到,跨提供商审查(Cross-provider review)正在成为高级工程师的标准操作。数据显示,使用多 Agent 工作流后,PR 数量增加 98%,但代码审查时间增加 91%,PR 体积增加 154%。

换句话说:写得更多了,但质量把关也更严了。

MCP:让三层栈真正可组合

三个工具能无缝协作,靠的是 MCP(Model Context Protocol)。

MCP 是 Anthropic 推出的开放协议,定义了 AI 工具之间如何交换上下文、调用能力、传递结果。codex-plugin-cc 就是一个标准的 MCP server,Claude Code 通过 MCP 协议调用 Codex 的能力。

这不是 API 集成,是协议层互操作。就像 HTTP 让不同的 Web 服务能互相调用,MCP 让不同的 AI 工具能互相调用。

对开发者的意义:驾驭工程比提示词工程更重要

这个三层栈的出现,改变了一个认知:AI 编程时代,编排能力比单工具能力更重要。

以前大家比的是「谁的 prompt 写得好」,现在比的是「谁的工作流设计得好」。Cursor 定义任务,Claude Code 执行,Codex 验证——这个流程本身就是一种工程能力。

TheNewStack 的报道里有个说法我很认同:「Harness engineering is the new prompt engineering.」驾驭工程(harness engineering),就是编排多个 AI 工具的能力,比写好提示词值钱多了。

具体来说:

  • 知道什么任务适合并行,什么任务必须串行
  • 知道什么时候用 Claude Code 写代码,什么时候用 Codex 审查
  • 知道如何在 Cursor 里定义清晰的任务边界,避免 agent 互相干扰
  • 知道如何用 MCP 协议连接自己的工具链

这些能力,现在还没有系统的教程,都是高级工程师自己摸索出来的。但趋势很明显:未来的「高级开发者」,不只是写代码写得好,更是编排 AI 工具编排得好。

展望

三层栈现在还很粗糙,但方向很明确。

编排层是下一个争夺焦点。Cursor 目前占据了这个位置,但 mco(一个中立的 CLI 编排工具)和 takt 已经在冒头。编排层不绑定任何一家模型,谁控制了编排层,谁就控制了开发者的工作流入口。这跟当年 Kubernetes 编排容器是一个道理——容器运行时有很多,但编排层只有 K8s 赢了。

验证层也会从「提建议」变成「强制门禁」。现在 Codex 审查完只是打个分,未来代码不通过 AI 审查就提交不了,就像现在不通过 CI/CD 测试就合并不了一样。这对代码质量是好事,但也意味着开发者的自由度会进一步缩小。

至于开发者本身,角色已经在变。从「写代码的人」变成「定义需求、编排工具、审查结果」的人。说白了,你在变成 AI 团队的技术负责人——自己不写代码,但要对所有代码负责。

没人设计这个架构,但它自己长出来了。而 OpenAI 给竞品做官方插件,就是最明确的信号:AI 编程工具市场不会赢者通吃,会形成一个可组合的生态。

参考资料