Benchmarks de IA: el modelo ya no es lo que importa, el agente sí

Hemos estado midiendo la inteligencia de los modelos de IA mal. Un benchmark, un número, un ganador. Esa foto está rota: la inteligencia real de un modelo cambia según el agente que lo envuelva. Y para una empresa que va a meter IA en sus procesos, eso lo cambia todo.

El ranking que casi todo el mundo mira

La web artificialanalysis.ai publica el comparador estándar de modelos. Mides el modelo a pelo: sin agente, sin herramientas, sin contexto real. Sale esta foto:

GPT-5.5 primero. Claude Opus 4.7 segundo. Gemini 3.1 tercero. Es el ranking que circula por LinkedIn cada vez que sale un modelo nuevo, y es el que coge casi todo el mundo cuando decide qué IA mete en su proyecto.

Lo que pasa cuando añades el agente

Mete un agente encima del modelo. El harness que decide cómo lee ficheros, llama herramientas y navega el contexto. El ranking se rompe:

Claude Opus 4.7 dentro de Cursor CLI adelanta a todo lo demás, incluido GPT-5.5 con Codex. El mismo Opus 4.7 dentro de Claude Code iguala a Codex. El orden anterior desaparece. El modelo manda menos de lo que parecía: lo que mueve la aguja es la combinación.

Y ahora mira el coste

DeepSeek V4 ejecutado dentro de Claude Code rinde en torno a 50 puntos a una fracción del coste de cualquier opción de Anthropic. Mismo trabajo, orden de magnitud menos por token, gracias al agente.

Por qué esto te importa si estás metiendo IA en tu empresa

Si estás planteándote IA dentro del negocio (automatizar presupuestos, leer documentos, contestar clientes, mover datos entre sistemas), la pregunta correcta no es cuál es el modelo más potente. Es cuál es la combinación de modelo y agente más eficiente para esa tarea concreta.

Tres consecuencias directas:

Coste. Un proyecto que parecía inviable a precio de GPT-5.5 puede ser perfectamente rentable con un modelo más barato dentro de un agente bien diseñado. El gasto evitable no está en el modelo, está en cómo lo enchufas.

Viabilidad. Casos de uso que descartaste porque "el modelo era demasiado caro" probablemente eran descartes de la combinación equivocada, no de la idea.

Ventaja competitiva. Quien sepa elegir el harness adecuado para cada tarea paga menos, escala más y se permite probar cosas que el de al lado descarta por presupuesto.

“
El modelo no es la inversión; el agente sí.
”

Lo que cambia en cómo construimos IA para empresas

En E2D dejamos hace tiempo de elegir el modelo "más potente por defecto". La decisión es siempre la misma secuencia: qué tarea, qué precisión necesita, cuántas llamadas al mes va a tener, qué latencia tolera. De ahí sale la combinación modelo + agente. A veces es Opus dentro de Claude Code. Otras es un modelo open source con un harness propio. Otras es una API barata dentro de un wrapper específico. La factura mensual del cliente depende más de esa elección que de cualquier optimización posterior.

Si estás eligiendo IA para tu empresa por el modelo, estás eligiendo mal la mitad de la ecuación.

¿Hablamos de tu proyecto?