Pourquoi votre OpenClaw brûle des milliers (Partie 1)

2026-03-20·ClawFirewall·4 minutes

Si vous utilisez OpenClaw pour le routage des modèles, vous faites déjà plus que la plupart. Mais les audits de dizaines de configurations cette année montrent un schéma : les équipes perdent 30 à 70 % de leur budget OpenClaw par des fuites qu’elles ne voient jamais. De petits points non surveillés qui s’accumulent mois après mois.

Beaucoup d’équipes pensent être couvertes. Règles de routage de base, modèles moins chers pour les tâches simples, limites de débit. Rien de tout ça n’adresse les vraies fuites—les appels cachés et redondants qui passent au travers.

Fuite #1 : Routage de secours non optimisé

Le routage de secours est la force d’OpenClaw. Modèle principal down ou limité ? Il bascule sur un backup. Les workflows continuent.

C’est aussi la plus grande source de dépenses inutiles pour la plupart des équipes.

Config typique : si GPT-4o échoue, basculer sur Claude 3 Opus. Les deux sont des modèles puissants, les workflows continuent. Le piège : Claude 3 Opus coûte souvent 20 à 30 % de plus par token. Quand le modèle principal atteint souvent des limites ou des erreurs, OpenClaw envoie silencieusement ces appels vers l’option la plus chère. Vous voyez la facture, pas le routage.

Une équipe e-commerce de 15 personnes utilisait OpenClaw pour les recommandations produits—GPT-4o en principal, Claude 3 Opus en secours. Ils s’attendaient à ~2 000 $/mois. Les logs montraient 62 % des appels vers Claude parce que les limites GPT-4o étaient trop basses pour le trafic de pointe. Dépenses réelles : 4 800 $/mois. Pendant six mois.

Leur tableau de bord montrait le nombre total d’appels, pas le volume ni le coût du secours. Ils ont cru la facture normale.

La plupart des équipes configurent le secours une fois et ne le revoient jamais. Pas de monitoring, pas de sélection de secours selon le coût, pas de plafond sur le volume. Résultat : des milliers en dépenses cachées chaque mois.

Fuite #2 : Chaînage de prompts redondant

OpenClaw facilite l’enchaînement de prompts sur plusieurs modèles—classifier avec un modèle bon marché, générer avec un plus puissant, vérifier les faits avec un troisième. Utile. Mais facile aussi d’en abuser.

Beaucoup d’équipes reproduisent la structure du prototype : classer la requête → extraire les données → générer → vérifier la conformité → formater. Chaque étape est un appel API distinct. Chacune paie des tokens. Et à chaque passage à l’étape suivante, vous renvoyez le contexte. Une chaîne en 10 étapes peut renvoyer les mêmes 1 000 tokens dix fois.

Une équipe fintech avait une chaîne d’onboarding en 7 étapes. Moyenne 3 200 tokens par utilisateur. En fusionnant cinq étapes en une, passage à 1 100 tokens—mêmes résultats, même conformité. La facture mensuelle est passée de 7 500 $ à 2 500 $.

La plupart ne revoient jamais leurs chaînes. Pas de suivi des tokens par étape, pas de recherche de contexte redondant, pas de tests pour fusionner des étapes. Ils paient 2 à 3x plus pour le même résultat.

Partie 2 : Contrôles budgétaires et visibilité →