Le tueur de budget silencieux : Agents vs chatbots

2026-03-20·ClawFirewall·3 minutes

Le chat est prévisible. Un utilisateur envoie un message, le modèle répond. Vos coûts évoluent grossièrement avec l’usage.

Les agents sont différents. Vous donnez à un script semi-autonome l’accès à votre fournisseur de modèles. Quand ce script tombe dans un mauvais état—mauvaise interprétation d’une réponse d’outil, blocage dans une retentative—il peut déclencher cinquante requêtes à fort volume de tokens en une minute. Aucun utilisateur impliqué. Pas d’arrêt naturel.

1. Où se produisent les fuites

Dans les workflows agentiques, les dépassements viennent généralement de trois endroits :

Boucles de raisonnement récursives

L’agent continue de demander au modèle des « clarifications » sur une sous-tâche qu’il ne résout pas. Chaque appel ajoute des tokens et des coûts.

Gonflement des tokens

Les agents renvoient souvent toute leur « mémoire » ou leur bloc-notes à chaque étape. Une tâche en 5 étapes peut monter à 32k tokens à la dernière itération si vous ne limitez pas.

Mauvais modèle pour la tâche

Utiliser GPT-4o ou Claude 3.5 Sonnet pour une classification simple qu’un modèle moins cher gérerait pour une fraction du prix.

2. Une « firewall agent » au niveau applicatif

Une limite mensuelle sur le tableau de bord du fournisseur est un bouton d’urgence réactif. Il coupe tout quand vous atteignez le plafond—mauvaise UX, et souvent trop tard.

Vous voulez des contrôles avant que les appels n’atteignent le fournisseur :

  • Plafonds d’itération : limite stricte du nombre de « pensées » ou d’actions par session
  • Attribution des tokens : taguer chaque requête avec user_id ou session_id pour voir quelle instance d’agent consume le budget
  • Handshakes budgétaires : si une tâche dépasse un seuil de tokens, exiger un résumé par un modèle moins cher ou une validation avant de continuer

L’objectif est de détecter tôt les comportements déviants, pas après les dégâts.