客服 Agent 72 小时烧掉 1 万美元

2026-03-15·ClawFirewall·5 分钟

周一早上 8 点 17 分，旧金山。Jake，一家 12 人 SaaS 创业公司的 CTO，打开邮箱。胃一沉。

过去 72 小时他陪伴侣徒步，完全离线。他们的客服 Agent 在这段时间烧掉了 10,237 美元的 API 调用费。一万。三天。而这款工具本应降低客服成本。

周三我旁听了复盘会。不是疏于管理。他们设了月预算。通过 OpenRouter 选了「性价比」模型。加了速率限制。Agent 绕过了所有控制。等有人发现时，已经来不及了。

如果你在搭建或扩展 Agent，这不算少见。这是常态。没有合适的防护，问题只是迟早。

实际发生了什么

Jake 的团队用 AutoGPT 搭建客服 Agent，用 OpenClaw 做路由，OpenRouter 做 API 接入。功能是分流工单、从 Shopify 拉订单数据、生成排障指引、并把复杂问题升级给人工。

他们在 OpenRouter 里设了 500 美元月预算，单次工具调用 10 次重试上限。纸面上看是够的。

漏掉的一点：限制是 per 调用，不是 per 工作流。

一个客户订单显示已送达但从未收到。Agent 尝试从 Shopify 拉订单数据。API 超时。Agent 按配置重试 10 次。全部失败。没有升级，而是从头重启整个工作流。

这个循环每 8 秒执行一次，持续 72 小时。120 万 token。14.7 万次 API 调用。1 万美元。99.8% 的调用没有解决任何问题。Agent 连一张工单都没关掉。

聊天机器人单次请求 token 可预测，起止明确。Agent 自行决策。调用工具、启动嵌套工作流、自动重试。这种自主性是价值所在，也是风险所在。

标准预算工具对 Agent 失效的三个原因：

重试逻辑绕过速率限制

Agent 会重试失败的工具调用。有利于可靠性。但若没有 per 动作、per 工作流、per 小时的硬性限制，重试会变成失控循环。Jake 的团队限制了单次调用的重试，没限制工作流重启。每 10 次重试失败，Agent 就整体重启。没人加这道护栏。

嵌套调用掩盖真实成本

一次用户请求可能触发多次调用：分类 → 拉数据 → 生成 → 校验 → 回复。加上嵌套 Agent，各自又有自己的调用和重试。基础成本工具往往看不清、也控不住整条链路。

非工作时间支出无人监控

大多数爆雷发生在没人盯的时候。夜间、周末。Jake 的团队没有实时告警。收到月预算 50% 的邮件时，循环已经烧掉 7 千美元。

1. 工具调用无上限

每个工具都可能是循环入口。数据库查询、API、文件读取——如果 Agent 能无限制调用，一次错误就能引发螺旋。应对：per 工作流、per 小时、per 天的硬性限制。没有例外。

2. 没有熔断器

熔断器在工作流触及阈值时停止流程——错误、重试、支出。例如：5 次失败重试 → 工作流停止，升级给人。很少团队在 Agent 上使用。应该用。

3. 没有 per 工作流预算限制

单一月限额形同虚设。一个循环几小时就能耗尽。需要 per 工作流、per Agent、per 用户的限制。例如：客服 Agent 最多 50 美元/天。获客：100 美元/周。单张工单：0.50 美元封顶。一个工作流出问题，不会拖垮整个预算。

4. 没有实时异常检测

要止住循环，就得在它开始时就发现。如果你通常 10 次调用/分钟，突然变成 100，系统应立刻告警，并可选暂停。月报太迟了。