静默预算杀手:Agent 与聊天机器人的本质区别
2026-03-20·ClawFirewall·3 分钟
聊天是可预测的。用户发消息,模型回复。你的成本大致随用量线性增长。
Agent 不同。你相当于把一个半自主脚本的调用权交给了模型供应商。当脚本进入异常状态——错误解析工具返回值、陷入重试——它可能在一分钟内发出五十次高 token 请求。没有用户参与。没有自然的停止点。
1. 泄漏通常发生在这几处
在 Agent 工作流中,失控成本通常来自三个地方:
递归推理循环
Agent 不断向模型请求对无法解决的子任务的「澄清」。每次调用都增加 token 和成本。
Token 膨胀
Agent 常在每一步都传入完整的「记忆」或草稿。如果不做限制,一个 5 步任务可能膨胀到 32k token。
模型选型不当
用 GPT-4o 或 Claude 3.5 Sonnet 做简单分类,而更便宜的模型只需几分之一的价格就能完成。
2. 应用层的「Agent 防火墙」
供应商控制台上的月限额是事后kill switch。触发时一刀切,用户体验差,而且往往为时已晚。
你需要在调用真正到达供应商之前做控制:
- 最大迭代次数:对每轮会话中 Agent 的「思考」或动作数量设硬性上限
- Token 归属:用 user_id 或 session_id 标记每次请求,便于定位是哪个 Agent 实例在烧钱
- 预算握手:单个任务超过 token 阈值时,要求先用便宜模型生成摘要或软审批再继续
目标是尽早发现失控行为,而不是事后补救。