客服 Agent 72 小时烧掉 1 万美元

2026-03-15·ClawFirewall·5 分钟

周一早上 8 点 17 分,旧金山。Jake,一家 12 人 SaaS 创业公司的 CTO,打开邮箱。胃一沉。

过去 72 小时他陪伴侣徒步,完全离线。他们的客服 Agent 在这段时间烧掉了 10,237 美元的 API 调用费。一万。三天。而这款工具本应降低客服成本。

周三我旁听了复盘会。不是疏于管理。他们设了月预算。通过 OpenRouter 选了「性价比」模型。加了速率限制。Agent 绕过了所有控制。等有人发现时,已经来不及了。

如果你在搭建或扩展 Agent,这不算少见。这是常态。没有合适的防护,问题只是迟早。

实际发生了什么

Jake 的团队用 AutoGPT 搭建客服 Agent,用 OpenClaw 做路由,OpenRouter 做 API 接入。功能是分流工单、从 Shopify 拉订单数据、生成排障指引、并把复杂问题升级给人工。

他们在 OpenRouter 里设了 500 美元月预算,单次工具调用 10 次重试上限。纸面上看是够的。

漏掉的一点:限制是 per 调用,不是 per 工作流

一个客户订单显示已送达但从未收到。Agent 尝试从 Shopify 拉订单数据。API 超时。Agent 按配置重试 10 次。全部失败。没有升级,而是从头重启整个工作流。

这个循环每 8 秒执行一次,持续 72 小时。120 万 token。14.7 万次 API 调用。1 万美元。99.8% 的调用没有解决任何问题。Agent 连一张工单都没关掉。

为何 Agent 成本更难控制

聊天机器人单次请求 token 可预测,起止明确。Agent 自行决策。调用工具、启动嵌套工作流、自动重试。这种自主性是价值所在,也是风险所在。

标准预算工具对 Agent 失效的三个原因:

重试逻辑绕过速率限制

Agent 会重试失败的工具调用。有利于可靠性。但若没有 per 动作、per 工作流、per 小时的硬性限制,重试会变成失控循环。Jake 的团队限制了单次调用的重试,没限制工作流重启。每 10 次重试失败,Agent 就整体重启。没人加这道护栏。

嵌套调用掩盖真实成本

一次用户请求可能触发多次调用:分类 → 拉数据 → 生成 → 校验 → 回复。加上嵌套 Agent,各自又有自己的调用和重试。基础成本工具往往看不清、也控不住整条链路。

非工作时间支出无人监控

大多数爆雷发生在没人盯的时候。夜间、周末。Jake 的团队没有实时告警。收到月预算 50% 的邮件时,循环已经烧掉 7 千美元。

四个多数团队会忽略的缺口

1. 工具调用无上限

每个工具都可能是循环入口。数据库查询、API、文件读取——如果 Agent 能无限制调用,一次错误就能引发螺旋。应对:per 工作流、per 小时、per 天的硬性限制。没有例外。

2. 没有熔断器

熔断器在工作流触及阈值时停止流程——错误、重试、支出。例如:5 次失败重试 → 工作流停止,升级给人。很少团队在 Agent 上使用。应该用。

3. 没有 per 工作流预算限制

单一月限额形同虚设。一个循环几小时就能耗尽。需要 per 工作流、per Agent、per 用户的限制。例如:客服 Agent 最多 50 美元/天。获客:100 美元/周。单张工单:0.50 美元封顶。一个工作流出问题,不会拖垮整个预算。

4. 没有实时异常检测

要止住循环,就得在它开始时就发现。如果你通常 10 次调用/分钟,突然变成 100,系统应立刻告警,并可选暂停。月报太迟了。


下篇:五步加固你的 Agent →