静默预算杀手:Agent 与聊天机器人的本质区别

2026-03-20·ClawFirewall·3 分钟

聊天是可预测的。用户发消息,模型回复。你的成本大致随用量线性增长。

Agent 不同。你相当于把一个半自主脚本的调用权交给了模型供应商。当脚本进入异常状态——错误解析工具返回值、陷入重试——它可能在一分钟内发出五十次高 token 请求。没有用户参与。没有自然的停止点。

1. 泄漏通常发生在这几处

在 Agent 工作流中,失控成本通常来自三个地方:

递归推理循环

Agent 不断向模型请求对无法解决的子任务的「澄清」。每次调用都增加 token 和成本。

Token 膨胀

Agent 常在每一步都传入完整的「记忆」或草稿。如果不做限制,一个 5 步任务可能膨胀到 32k token。

模型选型不当

用 GPT-4o 或 Claude 3.5 Sonnet 做简单分类,而更便宜的模型只需几分之一的价格就能完成。

2. 应用层的「Agent 防火墙」

供应商控制台上的月限额是事后kill switch。触发时一刀切,用户体验差,而且往往为时已晚。

你需要在调用真正到达供应商之前做控制:

  • 最大迭代次数:对每轮会话中 Agent 的「思考」或动作数量设硬性上限
  • Token 归属:用 user_id 或 session_id 标记每次请求,便于定位是哪个 Agent 实例在烧钱
  • 预算握手:单个任务超过 token 阈值时,要求先用便宜模型生成摘要或软审批再继续

目标是尽早发现失控行为,而不是事后补救。