Un agent support a brûlé 10 000 $ en 72 heures
Lundi 8h17, San Francisco. Jake, CTO d’une startup SaaS de 12 personnes, ouvre ses e-mails. Son estomac se serre.
Pendant le week-end—72 heures hors ligne, randonnée avec son partenaire—leur agent de support client avait brûlé 10 237 $ en appels API. Dix mille. Trois jours. Pour un outil censé réduire les coûts de support.
J’ai assisté au post-mortem le mercredi. Ce n’était pas de la négligence. Ils avaient un budget mensuel. Ils avaient choisi un modèle « rentable » via OpenRouter. Ils avaient ajouté des limites de débit. L’agent a contourné tous les contrôles. Quand quelqu’un a regardé, c’était trop tard.
Si vous construisez ou scalez des agents, ce n’est pas rare. C’est la norme. Et sans les bons garde-fous, c’est une question de quand, pas de si.
Ce qui s’est vraiment passé
L’équipe de Jake a construit l’agent de support avec AutoGPT, OpenClaw pour le routage et OpenRouter pour l’accès API. Il triait les tickets, récupérait les données de commande depuis Shopify, générait des guides de dépannage et escaladait les cas complexes.
Ils ont défini un budget mensuel de 500 $ dans OpenRouter et une limite de 10 tentatives par appel d’outil. Sur le papier, couvert.
Ils ont manqué un point : les limites étaient par appel, pas par workflow.
Une commande client affichait « livrée » mais n’était jamais arrivée. L’agent a tenté de récupérer les données de commande depuis Shopify. L’API a expiré. L’agent a réessayé 10 fois comme configuré. Tous ont échoué. Au lieu d’escalader, il a redémarré tout le workflow.
Cette boucle s’est répétée toutes les 8 secondes pendant 72 heures. 1,2 million de tokens. 147 000 appels API. 10 000 $. 99,8 % de ces appels n’ont rien résolu. L’agent n’a fermé aucun ticket.
Pourquoi le coût des agents est plus difficile à contrôler
Un chatbot a des tokens prévisibles par requête et un début/fin clair. Les agents décident seuls. Ils appellent des outils, lancent des workflows imbriqués, réessayent sans demander. Cette autonomie est le but. C’est aussi le risque.
Trois raisons pour lesquelles les outils de budget standards échouent avec les agents :
La logique de retentative contourne les limites de débit
Les agents réessaient les appels d’outils qui échouent. Bien pour la fiabilité. Sans limites strictes par action, workflow et heure, cette logique devient une boucle infinie. L’équipe de Jake limitait les retentatives par appel mais pas par workflow. À chaque 10 échecs, l’agent redémarrait. Personne n’avait ajouté cette garde.
Les appels imbriqués masquent le coût réel
Une requête utilisateur peut déclencher de nombreux appels : classer → récupérer les données → générer → vérifier → répondre. Avec des agents imbriqués, chacun a ses propres appels et retentatives. Les outils de coût basiques ne voient ou contrôlent souvent pas toute la cascade.
Les dépenses hors heures de bureau passent inaperçues
La plupart des explosions arrivent quand personne ne regarde. La nuit, le week-end. L’équipe de Jake n’avait pas d’alertes en temps réel. Ils ont reçu un e-mail à 50 % du budget mensuel—à ce moment-là la boucle avait déjà brûlé 7 000 $.
Quatre lacunes que la plupart des équipes ignorent
1. Utilisation illimitée des outils
Chaque outil peut déclencher une boucle. Requête BDD, API, lecture de fichier—si l’agent peut l’appeler sans limite, une erreur peut enfler. Solution : limites strictes par workflow, heure et jour. Aucune exception.
2. Pas de disjoncteurs (circuit breakers)
Un disjoncteur arrête un workflow quand il franchit un seuil—erreurs, retentatives, dépenses. Exemple : 5 retentatives échouées → le workflow s’arrête, escalade vers un humain. Peu d’équipes les utilisent pour les agents. Elles devraient.
3. Pas de limites budgétaires par workflow
Un seul plafond mensuel ne suffit pas. Une boucle peut le vider en quelques heures. Il faut des limites par workflow, agent et utilisateur. Ex. agent support : 50 $/jour max. Génération de leads : 100 $/semaine. Ticket unique : 0,50 $ max. Si un workflow déraille, il ne peut pas prendre tout le budget.
4. Pas de détection d’anomalies en temps réel
Arrêter une boucle, c’est la détecter dès le départ. Si vous faites normalement 10 appels/min et passez subitement à 100, le système doit le signaler, alerter et éventuellement mettre en pause. Les rapports mensuels arrivent trop tard.