如何防止失控循环(下)
2026-03-20·ClawFirewall·4 分钟
步骤 3:强制退出条件
每个工作流都需要硬规则:必须在何时停止,即便任务没完成。
多数团队只定义一种:任务完成时停止。你需要更多:
- 最大步数:例如每张工单最多 10 步,然后升级
- 最大运行时间:例如单次运行不超过 5 分钟,到时立刻停止
- 最大 API 调用数:例如单次用户请求最多 20 次调用,超了就停
- 失败退出:若工作流 2 次尝试仍无法解决失败,停止并升级。不无限重试、不整条重启
这样每个工作流都有明确终点。即便启动循环,也会很快触达某个退出条件。
步骤 4:实时异常检测与告警
有 limits 和熔断器,仍需要知道何时出问题。
日报或周报不够。一个循环几小时就能烧 1 万美元。需要有东西一异常就告警。
建议配置:
- 实时异常检测:监控调用量、token、错误、支出。标记偏离(例如 10 次/分钟 → 100 次/分钟)
- 高风险事件告警:熔断触发、日预算 50%、调用量 5 倍、错误率 20%、工作流触达最大步数或调用数。用 Slack、邮件或短信
- 严重异常自动暂停:最严重情况(例如 10 倍调用激增),暂停工作流直到有人复查。即便没人马上看到告警,也能止住循环
从零自建很重。ClawFirewall 自带实时监控、异常检测和可配置告警。
整体落地
失控循环是可以预防的。有了重试限制、熔断器、退出条件和实时监控,可以消除大部分风险。
错在拖延。等循环跑完,钱已经没了。在出事前把这些搭好。
ClawFirewall 打包了重试限制、熔断器、退出条件、异常检测和自动暂停。可接入 OpenRouter、OpenClaw、OpenAI、Anthropic 等。从 ClawFirewall.ai 开始。