¿Por qué los benchmarks no siempre reflejan la experiencia real con un modelo?

Porque los benchmarks miden tareas concretas y controladas, mientras que el uso real es abierto e impredecible. Además, algunos modelos aprenden a optimizar los tests sin mejorar en tareas del mundo real, un problema conocido como 'benchmark contamination'.

RLHF son las siglas de Reinforcement Learning from Human Feedback. Es la técnica por la que evaluadores humanos puntúan o comparan respuestas de un modelo, y esas preferencias se usan para entrenar al modelo a generar respuestas más útiles y alineadas con lo que los humanos quieren.

¿Cómo saber qué modelo de IA es mejor para mi caso de uso?

La respuesta honesta es que ningún ranking general te lo dice. Lo mejor es identificar las 3-5 tareas concretas que más vas a hacer con el modelo, probar cada modelo en esas tareas específicas con inputs reales, y comparar los resultados tú mismo. Los benchmarks son un punto de partida, no una respuesta definitiva.

Cómo se evalúan los modelos de IA: benchmarks, evaluación humana y por qué importa

Q: ¿Qué es un benchmark en inteligencia artificial?

Un benchmark es un conjunto estandarizado de pruebas que mide el rendimiento de un modelo en tareas concretas. Sirve para comparar modelos de forma objetiva y reproducible. Los más conocidos en 2026 son MMLU, GPQA Diamond, SWE-Bench y Chatbot Arena.

En este artículo

¿Qué significa evaluar un modelo?
Los benchmarks principales
El problema con los benchmarks
La evaluación humana
RLHF: cuando la evaluación entrena al modelo
Cómo elegir un modelo tú mismo
Preguntas frecuentes

El problema que nadie te explica

Sale un modelo nuevo. El titular dice que es el mejor hasta la fecha. Lo pruebas. Y en la tarea concreta que tú necesitas hacer, no nota diferencia con el anterior, o incluso va peor.

¿Quién miente? Nadie, en realidad. El problema es que «el mejor» depende completamente de cómo midas. Y las empresas de IA tienen todos los incentivos del mundo para medir en aquello en lo que salen bien.

Llevo años evaluando sistemas de lenguaje — primero en Amazon Alexa, luego siguiendo de cerca cómo evolucionan los LLMs — y lo que más me ha enseñado ese trabajo es que la evaluación es tan importante como el modelo en sí. Un sistema mal evaluado puede parecer brillante en papel y ser frustrante en la práctica.

Los tests que usan las empresas: qué son y por qué no son suficientes

Cuando una empresa dice que su modelo «supera» a la competencia, normalmente se refiere a que puntúa más alto en una serie de tests estandarizados. En el sector los llaman benchmarks — que es básicamente la palabra inglesa para «prueba de referencia».

La idea es simple: se crea un examen con preguntas y respuestas conocidas, el modelo lo hace, y se compara el resultado con las respuestas correctas. Cuanto más porcentaje acierta, mejor puntuación. Igual que un examen de selectividad, pero para modelos de IA.

Un ejemplo concreto

Uno de los tests más usados se llama MMLU. Tiene preguntas de medicina, derecho, historia, física, matemáticas... 57 materias distintas. El modelo responde tipo test y se calcula el porcentaje de acierto. En 2026, casi todos los modelos buenos superan el 90%. Con lo que ya no sirve para distinguir entre ellos — todos «aprueban» con nota.

El problema no es que los tests sean malos. Es que medir algo tan complejo como la inteligencia con un examen de preguntas cerradas siempre va a quedarse corto. Y hay un truco que complica todo aún más.

El modelo que estudió el examen antes de hacerlo

Los modelos de IA se entrenan con cantidades enormes de texto de internet. Y en internet están los tests. Eso significa que algunos modelos, sin que nadie lo admita abiertamente, han visto las preguntas y respuestas de esos exámenes durante el entrenamiento. Lo que parece un resultado brillante puede ser simplemente memoria.

En mi trabajo evaluando sistemas en Alexa vi algo parecido a menor escala: cuando evaluábamos el modelo con datos demasiado parecidos a los de entrenamiento, los resultados eran espectaculares. Cuando lo probábamos con conversaciones reales de usuarios, la historia era muy diferente. Esa distancia entre el test y la realidad es exactamente lo que hay que vigilar.

Lo que ningún test automático puede medir

Los tests funcionan bien para cosas con respuesta correcta única: matemáticas, código que ejecuta o no ejecuta, preguntas de historia con fecha exacta. Pero la mayoría de lo que la gente usa en su día a día no tiene una respuesta correcta única.

❌ Muy difícil de medir con tests automáticos

¿El tono es adecuado para este contexto? · ¿La explicación es clara para alguien que no sabe del tema? · ¿El modelo reconoce cuándo no sabe algo en lugar de inventárselo? · ¿Mantiene coherencia a lo largo de una conversación larga? · ¿La respuesta es útil de verdad o solo suena bien?

✅ Lo que los tests automáticos sí capturan bien

Preguntas con respuesta única verificable · Código que funciona o no funciona · Traducciones con referencia humana · Problemas matemáticos cerrados

Para todo lo que está en la primera lista, hace falta un humano. Alguien que lea la respuesta y decida si es buena o no. Eso es la evaluación humana, y es la parte del proceso que más se parece al trabajo que yo hacía en Alexa.

Cuando entra una persona a juzgar

La evaluación humana es exactamente lo que suena: personas reales leen respuestas del modelo y las valoran. ¿Es correcta esta información? ¿Ha hecho lo que se le pedía? ¿El tono es apropiado? ¿Hay algo problemático en la respuesta?

El reto es el mismo que en cualquier trabajo de anotación de datos: que dos personas distintas lleguen a la misma conclusión cuando ven la misma respuesta. Si uno dice «esta respuesta es buena» y el otro dice «es mediocre», los datos no sirven de nada. Parte importante de mi trabajo en Alexa era precisamente resolver esos desacuerdos: revisar las guías de evaluación, clarificar los casos ambiguos, asegurarme de que todo el equipo entendía los criterios igual.

Un sesgo curioso que nadie esperaba

Los evaluadores humanos tienden a puntuar mejor las respuestas largas y formales, aunque no sean mejores. Y los modelos aprenden eso. El resultado son modelos que escriben párrafos cuando bastaría con una frase, porque aprendieron que eso gusta. Es uno de los efectos secundarios más conocidos de entrenar con feedback humano masivo.

Cómo el feedback humano mejora los modelos

Hay algo fascinante en todo esto: la evaluación no solo mide el modelo. En muchos casos, lo cambia.

Cuando ChatGPT salió en 2022 y de repente parecía mucho más útil y fácil de usar que los modelos anteriores, la diferencia no era solo el tamaño o la arquitectura. Era que OpenAI había usado miles de horas de evaluación humana para enseñarle al modelo qué tipo de respuestas gustan a las personas.

El proceso es este: el modelo genera varias respuestas para la misma pregunta, un evaluador humano decide cuál es mejor, y esa preferencia se usa para ajustar el modelo. Se repite miles y miles de veces. El modelo aprende a imitar el criterio de los evaluadores. Anthropic hizo lo mismo con Claude, Google con Gemini. Todos los modelos conversacionales modernos pasan por este proceso.

Lo que me parece más interesante de esto es que el cuello de botella no es técnico. Es humano. La calidad del modelo final depende directamente de la calidad del criterio de los evaluadores. Si los evaluadores tienen sesgos, el modelo los aprende. Si las instrucciones de evaluación son vagas, el modelo aprende vaguedad.

Entonces, ¿cómo saber qué modelo usar tú?

La respuesta honesta es que ningún ranking te lo dice. Los rankings generales te dan una idea de qué modelos están en la liga alta, pero no te dicen cuál funciona mejor para lo que tú necesitas hacer.

Lo que funciona de verdad es hacer tu propia prueba, aunque sea informal. Coge las tres o cuatro tareas que más harías con un modelo — resumir documentos, escribir emails, analizar datos, lo que sea — y pruébalas tú mismo con los modelos que estés considerando. No necesitas ser ingeniero para comparar dos respuestas y saber cuál te resulta más útil.

Un truco que uso bastante

Hazle la misma pregunta al modelo de tres formas distintas. Un modelo robusto te da más o menos la misma respuesta de fondo aunque cambies las palabras. Uno que ha aprendido patrones de memoria puede darte respuestas completamente distintas según cómo lo formules. Eso te dice mucho sobre si realmente entiende lo que le preguntas o solo reconoce frases.

Y cuando veas un titular que dice «modelo X supera a todos en el test Y», ya sabes las preguntas que hacerte: ¿qué mide ese test exactamente? ¿Es algo que a mí me importa? ¿Podría el modelo haber visto esas preguntas durante el entrenamiento? ¿Han participado personas reales en la evaluación o es todo automático?

No hace falta saber programar para ser un consumidor crítico de estas noticias. Solo hace falta entender que detrás de cada número hay decisiones sobre qué medir, cómo medirlo y quién lo mide. Y esas decisiones importan tanto como el modelo en sí.

Preguntas frecuentes

¿Qué es un benchmark en inteligencia artificial?

Es un examen estandarizado que se le pone a un modelo de IA para medir cuánto acierta en una serie de preguntas o tareas con respuesta conocida. Sirve para comparar modelos de forma objetiva, aunque tiene límites importantes cuando se trata de medir habilidades más complejas.

¿Por qué un modelo puede puntuar alto en los tests y luego fallar en la práctica?

Principalmente porque los tests miden tareas controladas con respuesta única, y el uso real es mucho más abierto e impredecible. También porque algunos modelos han visto las preguntas de esos tests durante el entrenamiento, así que lo que parece razonamiento puede ser memoria.

¿Qué significa que un modelo se entrena con feedback humano?

Significa que personas reales han leído respuestas del modelo, han dicho cuáles les parecían mejores, y esas preferencias se han usado para ajustar el modelo. Es lo que hay detrás de ChatGPT, Claude, Gemini y prácticamente todos los asistentes modernos.

¿Cómo elijo el modelo que mejor me conviene?

Pruébalo tú mismo en las tareas concretas que tú necesitas hacer. Los rankings generales son un punto de partida, pero la única evaluación que cuenta para tu caso es la tuya propia.

La próxima vez que veas «este modelo es el mejor del mundo» en un titular, no lo tomes como un hecho. Tómalo como el principio de una pregunta: ¿el mejor en qué, medido cómo, por quién? Las empresas que desarrollan estos sistemas son muy buenas eligiendo los tests en los que salen bien. Tu trabajo es elegir el test que te importa a ti.

¿Te ha sido útil? Compártelo: