Cursor + Claude Code + Codex 三层栈：AI 编程工具的可组合生态

☰

背景

OpenAI 给 Anthropic 的产品做了官方插件。这事儿在科技圈挺罕见的。

3 月 30 日，OpenAI 在 GitHub 发布了 codex-plugin-cc，一个让 Codex 直接在 Claude Code 里运行的官方集成。Apache 2.0 许可，文档齐全，维护积极。

这不是慈善。据报道 Claude Code 的年化收入已达数十亿美元级别，打不过就嵌入。但更有意思的是背后的趋势：AI 编程工具市场没有走向赢者通吃，反而自己长出了一个三层互补栈。

三层栈：编排、执行、验证

高级工程师现在这么用 AI 工具：

Cursor 做编排：在 Agents Window 里定义任务，拆分子任务，并行调度多个 agent，切换不同环境（本地/远程/容器）
Claude Code 做执行：真正写代码、改文件、跑测试，干重活
Codex 做验证：审查 Claude Code 写的代码，挑毛病，压力测试

这不是谁设计的，是用户自己摸索出来的工作流。就像当年 Prometheus（指标）+ Grafana（仪表盘）+ PagerDuty（告警）那样，每个工具专注一个领域，组合起来比单一工具强。

AgentUpdate.ai 的报道把这个类比说得很清楚：「这些工具不是在收敛，而是在专业化并集成。」

为什么是这三个

不是巧合，是各自找到了生态位。

Cursor 3 的核心变化：从代码编辑器变成 Agent 编排层。4 月 2 日发布的 Cursor 3，最大的更新不是写代码更快，而是 Agents Window——支持并行 agent 执行、多环境切换、模型无关调度。你可以同时让三个 agent 干三件事，一个在本地跑测试，一个在远程服务器部署，一个在容器里调试。

Claude Code 的优势：执行力强，文件操作可靠。据行业分析显示，Claude Code 占所有公共 GitHub commit 的约 4%，预计年底超 20%。Pragmatic Engineer 调查里 46% 开发者选它为「最受喜爱」工具。因为它不只是生成代码，它真的会改文件、提交 PR、跑 CI/CD。

Codex 的定位：验证和审查。据报道周活跃用户已达数百万级别，开源仓库在 GitHub 上积累了数万 stars。它的强项不是写代码，是挑毛病——代码审查、安全扫描、性能分析。

三个工具各有所长，组合起来覆盖了「想→做→查」的完整流程。

codex-plugin-cc：打不过就嵌入

OpenAI 为什么给竞品做官方插件？因为 Claude Code 太大了，年化收入据行业分析已达数十亿美元级别，这个体量打不动。与其让用户在两个工具之间手动切换，不如直接嵌进去。

codex-plugin-cc 本质是一个 MCP server（Model Context Protocol），提供 6 个斜杠命令：

命令	功能
`/codex:review`	代码审查
`/codex:adversarial-review`	压力测试，故意挑刺
`/codex:rescue`	把任务委派给 Codex 执行
`/codex:explain`	解释代码逻辑
`/codex:security`	安全扫描
`/codex:performance`	性能分析

最关键的是 /codex:adversarial-review。这个命令让 Codex 用「对抗性」的视角审查代码——不是礼貌地提建议，而是故意找茬，找边界条件、找潜在 bug、找性能瓶颈。这解决了 AI 的「谄媚问题」。

跨提供商审查：解决 AI 的自我确认偏差

AI 审查自己的输出，容易陷入自我确认——它倾向于认可和自己训练目标一致的代码。Claude Code 写的代码，让 Claude 自己审查，它倾向于说「看起来不错」。不是故意偏袒，是模型的训练目标就是生成「合理」的输出，审查时也会用同样的标准。

用另一个公司的模型来审查，效果好得多。OpenAI 的 Codex 审查 Anthropic 的 Claude Code 输出，没有「自家人」的包袱，挑毛病更狠。

Daniel Vaughan 的分析里提到，跨提供商审查（Cross-provider review）正在成为高级工程师的标准操作。数据显示，使用多 Agent 工作流后，PR 数量增加 98%，但代码审查时间增加 91%，PR 体积增加 154%。

换句话说：写得更多了，但质量把关也更严了。

MCP：让三层栈真正可组合

三个工具能无缝协作，靠的是 MCP（Model Context Protocol）。

MCP 是 Anthropic 推出的开放协议，定义了 AI 工具之间如何交换上下文、调用能力、传递结果。codex-plugin-cc 就是一个标准的 MCP server，Claude Code 通过 MCP 协议调用 Codex 的能力。

这不是 API 集成，是协议层互操作。就像 HTTP 让不同的 Web 服务能互相调用，MCP 让不同的 AI 工具能互相调用。

对开发者的意义：驾驭工程比提示词工程更重要

这个三层栈的出现，改变了一个认知：AI 编程时代，编排能力比单工具能力更重要。

以前大家比的是「谁的 prompt 写得好」，现在比的是「谁的工作流设计得好」。Cursor 定义任务，Claude Code 执行，Codex 验证——这个流程本身就是一种工程能力。

TheNewStack 的报道里有个说法我很认同：「Harness engineering is the new prompt engineering.」驾驭工程（harness engineering），就是编排多个 AI 工具的能力，比写好提示词值钱多了。

具体来说：

知道什么任务适合并行，什么任务必须串行
知道什么时候用 Claude Code 写代码，什么时候用 Codex 审查
知道如何在 Cursor 里定义清晰的任务边界，避免 agent 互相干扰
知道如何用 MCP 协议连接自己的工具链

这些能力，现在还没有系统的教程，都是高级工程师自己摸索出来的。但趋势很明显：未来的「高级开发者」，不只是写代码写得好，更是编排 AI 工具编排得好。

展望

三层栈现在还很粗糙，但方向很明确。

编排层是下一个争夺焦点。Cursor 目前占据了这个位置，但 mco（一个中立的 CLI 编排工具）和 takt 已经在冒头。编排层不绑定任何一家模型，谁控制了编排层，谁就控制了开发者的工作流入口。这跟当年 Kubernetes 编排容器是一个道理——容器运行时有很多，但编排层只有 K8s 赢了。

验证层也会从「提建议」变成「强制门禁」。现在 Codex 审查完只是打个分，未来代码不通过 AI 审查就提交不了，就像现在不通过 CI/CD 测试就合并不了一样。这对代码质量是好事，但也意味着开发者的自由度会进一步缩小。

至于开发者本身，角色已经在变。从「写代码的人」变成「定义需求、编排工具、审查结果」的人。说白了，你在变成 AI 团队的技术负责人——自己不写代码，但要对所有代码负责。

没人设计这个架构，但它自己长出来了。而 OpenAI 给竞品做官方插件，就是最明确的信号：AI 编程工具市场不会赢者通吃，会形成一个可组合的生态。

参考资料

codex-plugin-cc
Composable AI Coding Stack: Cursor, Claude Code, Codex - Daniel Vaughan
Cursor, Claude Code, Codex merge into AI coding stack - AgentUpdate.ai
The AI coding tool stack - TheNewStack
mco - neutral CLI orchestration tool
takt - multi-agent coding experience

Jermineの博客

书不记，熟读可记；义不精，细思可精；惟有志不立，直是无着力处。

Cursor + Claude Code + Codex 三层栈：AI 编程工具的可组合生态

背景

三层栈：编排、执行、验证

为什么是这三个

codex-plugin-cc：打不过就嵌入

跨提供商审查：解决 AI 的自我确认偏差

MCP：让三层栈真正可组合

对开发者的意义：驾驭工程比提示词工程更重要

展望

参考资料

背景

三层栈：编排、执行、验证

为什么是这三个

codex-plugin-cc：打不过就嵌入

跨提供商审查：解决 AI 的自我确认偏差

MCP：让三层栈真正可组合

对开发者的意义：驾驭工程比提示词工程更重要

展望

参考资料

相关文章