Benchmark di IA: il modello non è più ciò che conta, l'agente sì

Abbiamo misurato male l'intelligenza dei modelli di IA. Un benchmark, un numero, un vincitore. Quella foto è rotta: l'intelligenza reale di un modello cambia in base all'agente che lo avvolge. E per un'azienda che sta per inserire l'IA nei suoi processi, questo cambia tutto.

La classifica che quasi tutti guardano

Il sito artificialanalysis.ai pubblica il comparatore standard dei modelli. Misuri il modello da solo: senza agente, senza strumenti, senza contesto reale. Esce questa foto:

GPT-5.5 primo. Claude Opus 4.7 secondo. Gemini 3.1 terzo. È la classifica che circola su LinkedIn ogni volta che esce un modello nuovo, ed è quella che quasi tutti prendono quando decidono quale IA inserire nel proprio progetto.

Cosa succede quando aggiungi l'agente

Metti un agente sopra il modello. L'harness che decide come legge i file, chiama gli strumenti e naviga il contesto. La classifica si rompe:

Claude Opus 4.7 dentro Cursor CLI supera tutto il resto, incluso GPT-5.5 con Codex. Lo stesso Opus 4.7 dentro Claude Code eguaglia Codex. L'ordine precedente scompare. Il modello conta meno di quanto sembrasse: ciò che sposta l'ago della bilancia è la combinazione.

E ora guarda il costo

DeepSeek V4 eseguito dentro Claude Code rende intorno ai 50 punti a una frazione del costo di qualsiasi opzione di Anthropic. Stesso lavoro, un ordine di grandezza in meno per token, grazie all'agente.

Perché questo ti riguarda se stai inserendo l'IA nella tua azienda

Se stai pensando all'IA all'interno del business (automatizzare i preventivi, leggere documenti, rispondere ai clienti, spostare dati tra sistemi), la domanda giusta non è quale sia il modello più potente. È quale sia la combinazione di modello e agente più efficiente per quel compito specifico.

Tre conseguenze dirette:

Costo. Un progetto che sembrava inattuabile al prezzo di GPT-5.5 può essere perfettamente redditizio con un modello più economico dentro un agente ben progettato. La spesa evitabile non è nel modello, è in come lo colleghi.

Fattibilità. Casi d'uso che hai scartato perché "il modello era troppo caro" erano probabilmente scarti della combinazione sbagliata, non dell'idea.

Vantaggio competitivo. Chi sa scegliere l'harness adatto per ogni compito paga meno, scala di più e può permettersi di provare cose che chi gli sta accanto scarta per budget.

“
Il modello non è l'investimento; l'agente sì.
”

Cosa cambia nel modo in cui costruiamo IA per le aziende

In E2D abbiamo smesso da tempo di scegliere il modello "più potente di default". La decisione è sempre la stessa sequenza: quale compito, quale precisione richiede, quante chiamate al mese avrà, quale latenza tollera. Da lì esce la combinazione modello + agente. A volte è Opus dentro Claude Code. Altre è un modello open source con un harness proprio. Altre è un'API economica dentro un wrapper specifico. La fattura mensile del cliente dipende più da quella scelta che da qualsiasi ottimizzazione successiva.

Se stai scegliendo l'IA per la tua azienda in base al modello, stai scegliendo male metà dell'equazione.

¿Hablamos de tu proyecto?