静默预算杀手：Agent 与聊天机器人的本质区别

2026-03-20·ClawFirewall·3 分钟

聊天是可预测的。用户发消息，模型回复。你的成本大致随用量线性增长。

Agent 不同。你相当于把一个半自主脚本的调用权交给了模型供应商。当脚本进入异常状态——错误解析工具返回值、陷入重试——它可能在一分钟内发出五十次高 token 请求。没有用户参与。没有自然的停止点。

1. 泄漏通常发生在这几处

在 Agent 工作流中，失控成本通常来自三个地方：

递归推理循环

Agent 不断向模型请求对无法解决的子任务的「澄清」。每次调用都增加 token 和成本。

Token 膨胀

Agent 常在每一步都传入完整的「记忆」或草稿。如果不做限制，一个 5 步任务可能膨胀到 32k token。

模型选型不当

用 GPT-4o 或 Claude 3.5 Sonnet 做简单分类，而更便宜的模型只需几分之一的价格就能完成。

供应商控制台上的月限额是事后kill switch。触发时一刀切，用户体验差，而且往往为时已晚。

你需要在调用真正到达供应商之前做控制：

目标是尽早发现失控行为，而不是事后补救。