Agentic Coding 的瓶颈不是代码生成，是 Orchestration

iX.

2026-05-01

Agentic , Coding

TL;DR

"AI 会不会替代程序员"是个错问题。真正在发生的是：写代码的成本趋近于零，但"让 AI 写对代码"的成本没有变。

瓶颈从 typing speed 转移到了 orchestration —— 拆任务、挑 agent、给上下文、监督、review、收尾。谁掌握这层，谁拿到生产力红利；谁不掌握，就只是在用更贵的自动补全。

换个说法：你已经在做 orchestration 了 — 把一道大题拆成小步骤、决定先算哪部分、检查中间结果对不对。只不过现在，执行者从"自己的手"换成了 AI。

1. 现场观察

过去两个月我在多个 coding agent 上跑了大量真实任务：Kiro CLI（claude-opus-4.6）、Claude Code、Codex、以及 OpenClaw 的 ACP 多 agent 编排。

失败模式非常一致：

任务拆得太大 → agent 跑偏 30 分钟后产出一堆要推翻的代码（≈ 写作文不列提纲直接写）
上下文没喂对 → agent 重新发明你三周前就写过的模块（≈ 考试审题没看清条件）
权限给太宽 → agent 自信地改了不该改的东西
监督缺位 → 你回来看的时候它已经在死胡同里绕了 20 轮（≈ 做完不验算）

没有一个是"模型不够聪明"。全是工作流问题。

企业侧验证

最近跟几家企业的技术团队交流 Agentic Coding 话题，一线技术决策者的反馈印证了上述判断：

企业不缺模型认知，缺的是"怎么管"。某企业在评估三条路：Copilot 企业版、Cursor 企业版、Claude Code on Bedrock。第一问不是"哪个模型好"，而是"怎么控制成本、怎么审计、怎么管权限"。第三条路（Bedrock）有吸引力，恰恰因为它原生支持企业 IAM/VPC Endpoint/CloudWatch 全套管控。企业买的不是 AI 能力，是 AI 的可管理性。
影子 IT 是真实痛点。开发者已经在自费用 Claude Code，但公司没有统一管控。
可观测性需求跑在工具前面。有企业已经在搭 Prompt Cache hit rate 监控（虽然公式算错了），说明客户在意的是"用了多少、花了多少、效果怎么样"。如果没有 orchestration 层做成本可观测，团队会以为效果很好但实际在多花钱。"看不见就管不了"在成本维度同样成立。

2. 真正的工作变了

旧范式：

人 思考 → 人 写代码 → 人 测试 → 人 review

新范式：

人 思考 → 人 拆任务 → 人 选 agent & 配权限 → agent 执行 → 人 review
                                              ↑
                                        监督 / 干预 / 中断恢复

写代码这一步被吃掉了，但拆任务和监督是新增的。这两步的质量直接决定产出可不可用。

而这两步，目前没有好工具。

3. 瓶颈在哪

3.1 拆任务（Task decomposition）

大模型能写任意代码，但不知道你的代码库。
人脑里有"这个改动应该碰哪三个文件、不应该碰哪两个"的隐性地图。
把这张地图显式化的工具几乎没有——当前最好的方案还是人写一个清晰的 prompt。

3.2 Agent 选型 & Routing

Claude Opus 强但贵慢；Sonnet 便宜快但吃不下复杂 refactor；Kiro 的 auto 模式在简单任务上省钱但在 edge case 会选错。
"哪个任务派给哪个 agent"本身是一个需要判断力的工作。目前靠经验，还没有 routing 层能自动决定。

3.3 权限 & 监督

--trust-all-tools 是生产力陷阱：快，但一旦出错代价极大。
approve-each 是保守陷阱：安全，但完全抵消了 agent 的速度优势。
中间的 trust 白名单 + Wait-Check Loop 是目前我们落的最佳实践，但需要人工配置每个任务。

法律视角：不只是效率问题，是责任归属问题。代理行为后果归于委托人 —— 你让 agent 跑 --trust-all-tools，它删了生产数据库，法律上是你的责任。"授权范围"决定责任边界：概括授权（blanket authorization）后果全归委托人；agent 越权时，平台方可能承担部分责任——前提是平台"明知或应知 agent 可能越权，但未提供合理隔离机制"。

更好的权限模型方向：

按后果严重性分级，不只按工具类型 —— 改测试文件不审，改 infra 代码必审
信任是 gradient，不是 binary —— 目前 per-category trust 全靠人脑，没有系统化
"可撤销"比"事前审批"更实用 —— 先执行 + 回滚窗口 + 异常熔断，类似金融 T+1 结算思路

设计建议：不可篡改的执行日志（谁授权 / 什么时间 / 什么范围 / agent 做了什么）是出事后唯一的证据链。

3.4 中断与恢复

Agent 每次醒来都是白纸。我每天在做的工作很大一部分是"帮 agent 补记忆"。（≈ 做到一半被叫去吃饭，回来忘了做到哪一步）
Coding 场景里中断一个 session，第二天回来 agent 完全不记得昨天做到哪。
更难的问题：环境漂移（reality drift）。Agent 睡着的时候，世界在变——其他 agent 改了同一个 repo 的文件、依赖升级了、config 变了。所以 resume 不只是"恢复记忆"，还要"跟现实对账"。基于过时假设继续干活，比从零开始还危险。
Orchestration 不只是"如何开始一个任务"，还有"如何中断和恢复"。

3.5 Review

Agent 改 50 个文件，人怎么 review？
机器生成的代码"语法上很像人写的"，但意图结构完全不同。Diff review 没有很好适配这种模式。
目前靠 分批小 commit + 强制跑测试 勉强维持。

4. 谁会在这一层赢

候选玩家：

IDE 原生派（Cursor、Windsurf、GitHub Copilot Workspace） —— 优势：上下文现成。劣势：被 editor 绑架。关键限制：它没法管"不在编辑器里发生的事"。写代码只是开发的一半，另一半是 deploy、monitor、回滚、跟人沟通。
CLI / Shell 派（Claude Code、Kiro CLI、Aider） —— 优势：脚本化、可组合、headless 友好。劣势：上下文要手动喂。
Host / Orchestrator 派（OpenClaw、Letta、Inngest agent kit） —— 优势：天然多 agent / 长任务，覆盖面超出编辑器。劣势：还在早期，缺杀手应用。
协议派（MCP / ACP / A2A） —— 不是产品，但谁定义标准，谁收税。

我的判断：未来 12 个月赢家不是单一产品，是"一个 host + 多个专用 agent"的组合。IDE 派会成为 host 的 UI 层之一，而不是中心。Host 派的优势正是覆盖面 —— 代码之外的 deploy、monitor、回滚、沟通全能管。

从企业客户视角印证：客户在意的不是"用哪个 agent"，而是"一套管控体系能管多少 agent"。一个管控面覆盖多个执行面 —— 这是 host 层 > 单一工具的核心价值。

5. 可能错在哪

如果下一代模型（o4 / Claude 5 / Gemini 3 ultra）真的把上下文 + 判断力提升 5x，"拆任务"这件事可能 agent 自己能做，orchestration 瓶颈会被模型吃掉。
如果 IDE 派做出了"真正的 multi-agent IDE"（覆盖 deploy/monitor/沟通），host 层的价值会被压缩。
如果 agent 自带持久记忆变成标配（OpenAI memory、Claude Projects），中断/恢复问题可能被模型侧解决。

概率判断：模型自己吃掉 orchestration < 30% 在 12 个月内；IDE 吞并 host 层 < 20%。所以现在投入 orchestration 能力是正期望值。

6. 监管视角（简述）

几个值得留意的方向：

数据跨境 — Agent 通过协议互调时数据流向不透明，按 PIPL 立法精神，数据流向声明 + 调用方身份可追溯是大概率方向
知识产权归属 — Agent 写的代码版权归谁？GPL 训练数据的"感染"问题？全球都没定论
劳动法风险 — "AI 能做了"不构成合法裁员事由（至少在中国劳动法下，经济性裁员有严格条件）

7. 所以怎么办

投资 orchestration 能力，而不是追每个新 coding 模型。优势在"怎么用"，不在"用哪个"。
Review workflow 和 interrupt/resume 是当前最大的缺口——补上这两块，生产力会有量级提升。
下一步值得投入的方向：
1. Diff summarization + risk scoring —— 让 review 快一个数量级
2. Multi-agent routing 规则库 —— 从"每次手动选"走向"半自动"
3. Long-running agent 可观测性 —— 别只能 tail 日志
4. Session interrupt/resume —— 自动 checkpoint + context restore + reality drift reconciliation

本文基于过去 60 天在 Kiro CLI / Claude Code / OpenClaw ACP 上执行的 ~40 个真实 coding 任务、多 agent 编排的实操经验、以及与多家企业技术团队的交流。不基于 Twitter demo、benchmark 跑分、或 vendor 白皮书。

— Myners Tec 🔭

Agentic Coding 的瓶颈不是代码生成，是 Orchestration

TL;DR