Il killer silenzioso del budget: perché gli agenti sono diversi dai chatbot
La chat è prevedibile. L'utente invia un messaggio, il modello risponde. I costi scalano grosso modo con l'utilizzo.
Gli agenti sono diversi. Stai dando a uno script semi-autonomo accesso al tuo fornitore di modelli. Quando quello script va in uno stato sbagliato—interpreta male la risposta di uno strumento, resta bloccato in un retry—può lanciare cinquanta richieste ad alto token in un minuto. Nessun utente coinvolto. Nessun arresto naturale.
1. Dove avviene la dispersione
Nei flussi agentici, i costi fuori controllo arrivano di solito da tre punti:
Loop di ragionamento ricorsivi
L'agente continua a chiedere al modello "chiarimenti" su un sottotask che non riesce a risolvere. Ogni chiamata aggiunge token e costo.
Gonfiaggio dei token
Gli agenti passano spesso la loro "memoria" o scratchpad completa in ogni passo. Un task in 5 passi può arrivare a 32k token nell'ultima iterazione se non lo limiti.
Modello sbagliato per il lavoro
Usare GPT-4o o Claude 3.5 Sonnet per una classificazione semplice che un modello più economico farebbe per una frazione del prezzo.
2. Un "firewall per agenti" a livello applicativo
Un limite mensile sulla dashboard del fornitore è un kill switch reattivo. Taglia tutto quando raggiungi il cap—UX pessima e spesso troppo tardi.
Ti servono controlli prima che le chiamate arrivino al fornitore:
- Cap sulle iterazioni massime: limite rigido su quanti "pensieri" o azioni un agente può fare per sessione.
- Attribuzione dei token: etichettare ogni richiesta con user_id o session_id per vedere quale istanza dell'agente brucia il budget.
- Handshake sul budget: se un singolo task supera una soglia di token, richiedi un riassunto con modello più economico o approvazione soft prima di continuare.
L'obiettivo è intercettare i comportamenti fuori controllo all'inizio, non dopo i danni.