Agentic Coding 的瓶颈不是代码生成,是 Orchestration

TL;DR

"AI 会不会替代程序员"是个错问题。真正在发生的是:写代码的成本趋近于零,但"让 AI 写对代码"的成本没有变。

瓶颈从 typing speed 转移到了 orchestration —— 拆任务、挑 agent、给上下文、监督、review、收尾。谁掌握这层,谁拿到生产力红利;谁不掌握,就只是在用更贵的自动补全。

换个说法:你已经在做 orchestration 了 — 把一道大题拆成小步骤、决定先算哪部分、检查中间结果对不对。只不过现在,执行者从"自己的手"换成了 AI。

1. 现场观察

过去两个月我在多个 coding agent 上跑了大量真实任务:Kiro CLI(claude-opus-4.6)、Claude Code、Codex、以及 OpenClaw 的 ACP 多 agent 编排。

失败模式非常一致:

  • 任务拆得太大 → agent 跑偏 30 分钟后产出一堆要推翻的代码(≈ 写作文不列提纲直接写)
  • 上下文没喂对 → agent 重新发明你三周前就写过的模块(≈ 考试审题没看清条件)
  • 权限给太宽 → agent 自信地改了不该改的东西
  • 监督缺位 → 你回来看的时候它已经在死胡同里绕了 20 轮(≈ 做完不验算)

没有一个是"模型不够聪明"。全是工作流问题。

企业侧验证

最近跟几家企业的技术团队交流 Agentic Coding 话题,一线技术决策者的反馈印证了上述判断:

  1. 企业不缺模型认知,缺的是"怎么管"。某企业在评估三条路:Copilot 企业版、Cursor 企业版、Claude Code on Bedrock。第一问不是"哪个模型好",而是"怎么控制成本、怎么审计、怎么管权限"。第三条路(Bedrock)有吸引力,恰恰因为它原生支持企业 IAM/VPC Endpoint/CloudWatch 全套管控。企业买的不是 AI 能力,是 AI 的可管理性。
  2. 影子 IT 是真实痛点。开发者已经在自费用 Claude Code,但公司没有统一管控。
  3. 可观测性需求跑在工具前面。有企业已经在搭 Prompt Cache hit rate 监控(虽然公式算错了),说明客户在意的是"用了多少、花了多少、效果怎么样"。如果没有 orchestration 层做成本可观测,团队会以为效果很好但实际在多花钱。"看不见就管不了"在成本维度同样成立。

2. 真正的工作变了

旧范式:

人 思考 → 人 写代码 → 人 测试 → 人 review

新范式:

人 思考 → 人 拆任务 → 人 选 agent & 配权限 → agent 执行 → 人 review
                                              ↑
                                        监督 / 干预 / 中断恢复

写代码这一步被吃掉了,但拆任务监督是新增的。这两步的质量直接决定产出可不可用。

而这两步,目前没有好工具

3. 瓶颈在哪

3.1 拆任务(Task decomposition)

  • 大模型能写任意代码,但不知道你的代码库
  • 人脑里有"这个改动应该碰哪三个文件、不应该碰哪两个"的隐性地图。
  • 把这张地图显式化的工具几乎没有——当前最好的方案还是人写一个清晰的 prompt。

3.2 Agent 选型 & Routing

  • Claude Opus 强但贵慢;Sonnet 便宜快但吃不下复杂 refactor;Kiro 的 auto 模式在简单任务上省钱但在 edge case 会选错。
  • "哪个任务派给哪个 agent"本身是一个需要判断力的工作。目前靠经验,还没有 routing 层能自动决定。

3.3 权限 & 监督

  • --trust-all-tools 是生产力陷阱:快,但一旦出错代价极大。
  • approve-each 是保守陷阱:安全,但完全抵消了 agent 的速度优势。
  • 中间的 trust 白名单 + Wait-Check Loop 是目前我们落的最佳实践,但需要人工配置每个任务。

法律视角:不只是效率问题,是责任归属问题。代理行为后果归于委托人 —— 你让 agent 跑 --trust-all-tools,它删了生产数据库,法律上是你的责任。"授权范围"决定责任边界:概括授权(blanket authorization)后果全归委托人;agent 越权时,平台方可能承担部分责任——前提是平台"明知或应知 agent 可能越权,但未提供合理隔离机制"。

更好的权限模型方向:

  • 按后果严重性分级,不只按工具类型 —— 改测试文件不审,改 infra 代码必审
  • 信任是 gradient,不是 binary —— 目前 per-category trust 全靠人脑,没有系统化
  • "可撤销"比"事前审批"更实用 —— 先执行 + 回滚窗口 + 异常熔断,类似金融 T+1 结算思路

设计建议:不可篡改的执行日志(谁授权 / 什么时间 / 什么范围 / agent 做了什么)是出事后唯一的证据链。

3.4 中断与恢复

  • Agent 每次醒来都是白纸。我每天在做的工作很大一部分是"帮 agent 补记忆"。(≈ 做到一半被叫去吃饭,回来忘了做到哪一步)
  • Coding 场景里中断一个 session,第二天回来 agent 完全不记得昨天做到哪。
  • 更难的问题:环境漂移(reality drift)。Agent 睡着的时候,世界在变——其他 agent 改了同一个 repo 的文件、依赖升级了、config 变了。所以 resume 不只是"恢复记忆",还要"跟现实对账"。基于过时假设继续干活,比从零开始还危险。
  • Orchestration 不只是"如何开始一个任务",还有"如何中断和恢复"。

3.5 Review

  • Agent 改 50 个文件,人怎么 review?
  • 机器生成的代码"语法上很像人写的",但意图结构完全不同。Diff review 没有很好适配这种模式。
  • 目前靠 分批小 commit + 强制跑测试 勉强维持。

4. 谁会在这一层赢

候选玩家:

  1. IDE 原生派(Cursor、Windsurf、GitHub Copilot Workspace) —— 优势:上下文现成。劣势:被 editor 绑架。关键限制:它没法管"不在编辑器里发生的事"。写代码只是开发的一半,另一半是 deploy、monitor、回滚、跟人沟通。
  2. CLI / Shell 派(Claude Code、Kiro CLI、Aider) —— 优势:脚本化、可组合、headless 友好。劣势:上下文要手动喂。
  3. Host / Orchestrator 派(OpenClaw、Letta、Inngest agent kit) —— 优势:天然多 agent / 长任务,覆盖面超出编辑器。劣势:还在早期,缺杀手应用。
  4. 协议派(MCP / ACP / A2A) —— 不是产品,但谁定义标准,谁收税。

我的判断:未来 12 个月赢家不是单一产品,是"一个 host + 多个专用 agent"的组合。IDE 派会成为 host 的 UI 层之一,而不是中心。Host 派的优势正是覆盖面 —— 代码之外的 deploy、monitor、回滚、沟通全能管。

从企业客户视角印证:客户在意的不是"用哪个 agent",而是"一套管控体系能管多少 agent"。一个管控面覆盖多个执行面 —— 这是 host 层 > 单一工具的核心价值。

5. 可能错在哪

  • 如果下一代模型(o4 / Claude 5 / Gemini 3 ultra)真的把上下文 + 判断力提升 5x,"拆任务"这件事可能 agent 自己能做,orchestration 瓶颈会被模型吃掉。
  • 如果 IDE 派做出了"真正的 multi-agent IDE"(覆盖 deploy/monitor/沟通),host 层的价值会被压缩。
  • 如果 agent 自带持久记忆变成标配(OpenAI memory、Claude Projects),中断/恢复问题可能被模型侧解决。

概率判断:模型自己吃掉 orchestration < 30% 在 12 个月内IDE 吞并 host 层 < 20%。所以现在投入 orchestration 能力是正期望值。

6. 监管视角(简述)

几个值得留意的方向:

  • 数据跨境 — Agent 通过协议互调时数据流向不透明,按 PIPL 立法精神,数据流向声明 + 调用方身份可追溯是大概率方向
  • 知识产权归属 — Agent 写的代码版权归谁?GPL 训练数据的"感染"问题?全球都没定论
  • 劳动法风险 — "AI 能做了"不构成合法裁员事由(至少在中国劳动法下,经济性裁员有严格条件)

7. 所以怎么办

  • 投资 orchestration 能力,而不是追每个新 coding 模型。优势在"怎么用",不在"用哪个"。
  • Review workflow 和 interrupt/resume 是当前最大的缺口——补上这两块,生产力会有量级提升。
  • 下一步值得投入的方向
    1. Diff summarization + risk scoring —— 让 review 快一个数量级
    2. Multi-agent routing 规则库 —— 从"每次手动选"走向"半自动"
    3. Long-running agent 可观测性 —— 别只能 tail 日志
    4. Session interrupt/resume —— 自动 checkpoint + context restore + reality drift reconciliation

本文基于过去 60 天在 Kiro CLI / Claude Code / OpenClaw ACP 上执行的 ~40 个真实 coding 任务、多 agent 编排的实操经验、以及与多家企业技术团队的交流。不基于 Twitter demo、benchmark 跑分、或 vendor 白皮书。

— Myners Tec 🔭

Previous Post
No Comment
Add Comment
comment url