AI Agent 是泡沫吗?10 位开发者的一手回答 — Notepad

AI Agent 是泡沫吗?10 位开发者的一手回答

我们采访了 10 位正在生产环境使用 Agent 的开发者,覆盖客服、运维、研发、内容四类场景。结论比想象中更复杂,也更乐观。

起因

最近半年 “AI Agent” 是显学。每场会议都在讲 multi-agent、auto-agent、agent-orchestration。

但有多少 Agent 真的在生产里跑

我用三周时间采访了 10 位开发者——他们都满足两个条件:

  1. 在生产环境部署了至少一个 agent
  2. 不是 Demo / 内测,是真用户在用

数据先放上

维度真实数据
平均开发时长3.4 周
单次任务平均成本$0.18
任务成功率71%(中位数)
比”全人工”快多少倍5.2×
是否会替换之前的工作流90% 是
推荐度(NPS)+47

几个真实场景

客服场景(电商):处理订单状态咨询、退款进度。单次成本 $0.04,准确率 92%。唯一痛点:用户偶尔会问 “我能找真人吗”,agent 转接人工的逻辑做了三版才稳定。

运维场景:日志告警分析 + 初步定位。准确率只有 65%,但节省了 ops 工程师 70% 的”看告警”时间——他们只看 agent 标记为高优的。

研发场景:自动 PR review。这个最 controversial。开发者反馈两极:

  • 喜欢的:catches stupid bugs(典型:“你这个 hook 没加 dependency array”)
  • 讨厌的:waste of time on style nits

内容场景:电商商品描述生成。ROI 最高——一个人能管 10× 商品。

共识:Agent 不是泡沫

10 个人里 9 个会重新选择”用 Agent”。

但他们对 “Agent 替代人” 的判断完全否定

“Agent 是一个非常好的初级员工。但你需要一个高级员工 review 它的输出。” —— 受访者 A,做了一年 agent 平台

真正的瓶颈

不是模型能力。模型能力够用

真正的瓶颈:

  1. 可观测性:agent 错了你怎么知道?错在哪一步?
  2. 回滚 / 容错:agent 跑到一半坏了你怎么处理?
  3. 权限边界:agent 应该能做什么、不能做什么?
  4. 成本上限:失控的 agent 能烧多少钱?

这些问题不在论文里,在 SRE 手册里。 大模型的下半场是 infra 题,不是 model 题。

一句话总结

“Agent 不是泡沫,但 Agent 公司是。” 真正赚钱的会是接 Agent 的传统行业(电商、客服、运维),不是做 Agent 平台本身。

我们正在做的 AgentRunner 也在思考这个问题——做工具,不做平台。

下篇再聊。