如何防止失控循环(下)

2026-03-20·ClawFirewall·4 分钟

上篇:循环成因与首批防线 ←

步骤 3:强制退出条件

每个工作流都需要硬规则:必须在何时停止,即便任务没完成。

多数团队只定义一种:任务完成时停止。你需要更多:

  • 最大步数:例如每张工单最多 10 步,然后升级
  • 最大运行时间:例如单次运行不超过 5 分钟,到时立刻停止
  • 最大 API 调用数:例如单次用户请求最多 20 次调用,超了就停
  • 失败退出:若工作流 2 次尝试仍无法解决失败,停止并升级。不无限重试、不整条重启

这样每个工作流都有明确终点。即便启动循环,也会很快触达某个退出条件。

步骤 4:实时异常检测与告警

有 limits 和熔断器,仍需要知道何时出问题。

日报或周报不够。一个循环几小时就能烧 1 万美元。需要有东西一异常就告警。

建议配置:

  • 实时异常检测:监控调用量、token、错误、支出。标记偏离(例如 10 次/分钟 → 100 次/分钟)
  • 高风险事件告警:熔断触发、日预算 50%、调用量 5 倍、错误率 20%、工作流触达最大步数或调用数。用 Slack、邮件或短信
  • 严重异常自动暂停:最严重情况(例如 10 倍调用激增),暂停工作流直到有人复查。即便没人马上看到告警,也能止住循环

从零自建很重。ClawFirewall 自带实时监控、异常检测和可配置告警。

整体落地

失控循环是可以预防的。有了重试限制、熔断器、退出条件和实时监控,可以消除大部分风险。

错在拖延。等循环跑完,钱已经没了。在出事前把这些搭好。

ClawFirewall 打包了重试限制、熔断器、退出条件、异常检测和自动暂停。可接入 OpenRouter、OpenClaw、OpenAI、Anthropic 等。从 ClawFirewall.ai 开始