Warum Ihr OpenClaw-Setup Tausende verbrennt (Teil 1)
Wenn Sie OpenClaw für Modell-Routing nutzen, tun Sie schon mehr als die meisten. Aber Audits Dutzender Setups im letzten Jahr zeigen ein Muster: Teams verlieren 30–70 % ihres OpenClaw-Budgets durch Lücken, die sie nie sehen. Kleine, unüberwachte Punkte, die sich Monat für Monat summieren.
Viele Teams glauben, sie seien abgesichert. Basis-Routing-Regeln, günstigere Modelle für einfache Aufgaben, Ratenlimits. Das adressiert die echten Leckagen nicht – versteckte, redundante Aufrufe, die durchrutschen.
Leckage #1: Nicht optimiertes Fallback-Routing
Fallback-Routing ist OpenClaws Stärke. Primärmodell down oder limitiert? Es wechselt auf ein Backup. Workflows laufen weiter.
Es ist auch die größte Quelle unnötiger Ausgaben für die meisten Teams.
Typisches Setup: GPT-4o schlägt fehl → Fallback auf Claude 3 Opus. Beide sind starke Modelle, Workflows laufen weiter. Der Haken: Claude 3 Opus kostet oft 20–30 % mehr pro Token. Wenn das Primärmodell häufig Limits oder Fehler trifft, schickt OpenClaw diese Aufrufe still an die teurere Option. Sie sehen die Rechnung, nicht das Routing.
Ein 15-köpfiges E-Commerce-Team nutzte OpenClaw für Produktempfehlungen – GPT-4o primär, Claude 3 Opus Fallback. Erwartet: ~2.000 $/Monat. Logs zeigten: 62 % der Aufrufe gingen an Claude, weil die GPT-4o-Limits für den Spitzenverkehr zu niedrig waren. Tatsächliche Ausgaben: 4.800 $/Monat. Sechs Monate lang.
Ihr Dashboard zeigte die Gesamtaufrufe, nicht Fallback-Volumen oder -Kosten. Sie hielten die Rechnung für normal.
Die meisten Teams konfigurieren Fallback einmal und rühren es nie wieder an. Kein Monitoring, keine kostenbewusste Fallback-Auswahl, keine Obergrenzen für das Fallback-Volumen. Ergebnis: Tausende an versteckten Ausgaben jeden Monat.
Leckage #2: Redundantes Prompt-Chaining
OpenClaw erleichtert das Verketten von Prompts über Modelle – Klassifikation mit einem günstigen Modell, Generierung mit einem stärkeren, Faktenprüfung mit einem dritten. Nützlich. Aber auch leicht überzogen.
Viele Teams übernehmen die Struktur aus der Prototyp-Phase: Anfrage klassifizieren → Daten extrahieren → generieren → Compliance prüfen → formatieren. Jeder Schritt ist ein eigener API-Aufruf. Jeder kostet Tokens. Und bei jedem Weiterreichen an den nächsten Schritt schicken Sie den Kontext erneut. Eine 10-Schritte-Kette kann dieselben 1.000 Tokens zehnmal abrechnen.
Ein Fintech-Team hatte eine 7-Schritte-Onboarding-Kette. Durchschnitt 3.200 Tokens pro Nutzer. Durch Zusammenführen von fünf Schritten in einen sank es auf 1.100 Tokens – gleiche Ergebnisse, gleiche Compliance. Die monatliche Rechnung fiel von 7.500 $ auf 2.500 $.
Die meisten überarbeiten ihre Ketten nie. Kein Token-Tracking pro Schritt, keine Suche nach redundantem Kontext, keine Tests zum Zusammenführen. Sie zahlen 2–3x für dasselbe Ergebnis.