Evals de agentes de IA｜5 formas de medir la calidad

Q: P. ¿En qué se diferencian las evals de las pruebas unitarias normales?

Las pruebas unitarias comprueban &quot;¿coincide la salida exactamente con el valor esperado?&quot;. Pero un LLM es probabilístico y produce una salida distinta cada vez, así que la coincidencia exacta no sirve tal cual. Las evals se diferencian al combinar mediciones adecuadas a la salida probabilística —comprobaciones por reglas, calificación por un LLM y observación de la varianza en varias ejecuciones— además de la coincidencia con la verdad de referencia.

Q: P. ¿Cuántos casos de eval necesito?

Puedes empezar bien con 10-20. Aun con unos pocos ayudan en la comparación relativa de &quot;¿subió o bajó la puntuación tras un cambio?&quot;. De forma realista, hazlo crecer añadiendo los fallos encontrados en producción. Más importante que la cantidad es incluir correctamente fallos, excepciones y casos límite.

Evals de agentes de IA: 5 formas de medir la calidad (2026)

Contenido

La conclusión, en 30 segundos
1. Por qué necesitas evals
2. Qué son las evals
3. Cinco formas de medir la calidad
4. Evaluación específica de agentes
5. Cómo empezar: construye en pequeño
6. Errores habituales
7. Herramientas clave
Resumen
FAQ

Después de construir un agente de IA, siempre te topas con el mismo muro: "Vale, pero ¿de verdad funciona?". Cambiaste el prompt, sustituiste el modelo, añadiste una herramienta, y el mecanismo para decidir si eso lo hizo mejor o peor con datos en lugar de intuición son las evals (evaluaciones).

Un LLM puede producir una salida distinta cada vez para la misma entrada (es probabilístico). Por eso, lanzar a producción con un "parece que funciona" lleva a regresiones silenciosas y fallos en casos límite. Este artículo explica qué son las evals, cinco formas de medir la calidad, la evaluación específica de agentes y cómo empezar en pequeño, escrito para quienes lo llevan a la práctica.

La conclusión, en 30 segundos

Si solo lees una cosa

Qué son las evals

Un mecanismo de puntuación que mide con números la calidad de la salida de la IA. Juzga con datos, no con intuición.

Por qué las necesitas

Los LLM son probabilísticos y varían. Las pruebas unitarias no encajan bien y las regresiones se cuelan.

Por dónde empezar

Empieza con un conjunto de eval de 20 casos. Aun con unos pocos, se vuelve visible si cada cambio "mejora o empeora".

1. Por qué necesitas evals

El software corriente es determinista: misma entrada, misma salida. Por eso funciona una prueba unitaria que comprueba "¿coincide la salida con el valor esperado?". Pero un LLM es probabilístico: incluso la misma pregunta vuelve redactada o planteada de forma algo distinta cada vez. En los términos de agentes de IA frente a RPA, no es una "mano" determinista sino un "cerebro" probabilístico, así que las pruebas de coincidencia exacta no sirven tal cual.

Aquí suelen aparecer tres modos de fallo.

😵 Depuración a ojo

Pruebas un par de ejemplos a mano y decides que "parece mejor". Nunca te enteras de que otro caso se rompió.

🐛 Regresión silenciosa

Cambias un prompt o un modelo y solo un tipo de entrada empeora. Te enteras por una queja en producción.

🎲 Fallos no reproducibles

"A veces devuelve algo raro". Como es probabilístico, un solo intento no lo reproduce, así que no puedes rastrear la causa.

Las evals previenen las tres a la vez. Prepara un conjunto de datos de evaluación, puntúa todo el conjunto en cada cambio y compara las puntuaciones: eso, por sí solo, convierte la "intuición" en "datos" y hace visibles las regresiones. Cuanto más juicio delegues en un agente, más se vuelven las evals el cimiento de la calidad, junto con las guardrails.

2. Qué son las evals

Evals (evaluaciones) = medir si la salida de una IA o el comportamiento de un agente funciona de forma correcta y estable, como se espera. En términos humanos, es calificar. Los bloques que la componen son simples y se dividen en tres partes.

① Conjunto de datos

El conjunto de entradas sobre el que evalúas. Reúne ejemplos de uso real, registros pasados y los casos límite esperados.

② Puntuador

Cómo conviertes la salida en una puntuación: coincidencia exacta, comprobaciones por reglas o calificación por otra IA.

③ Ejecutar y comparar

Puntúa todo el conjunto y compara antes y después de un cambio para decidir si mejora o empeora.

Las evals no son "constrúyelas una vez y listo": la esencia es ejecutarlas como una prueba de regresión cada vez que cambias un prompt, un modelo o una herramienta. Como el código de pruebas, son un activo que haces crecer.

3. Cinco formas de medir la calidad

Hay cinco enfoques representativos de puntuación. La regla general es elegir según la naturaleza de la tarea y combinar varios.

① Coincidencia con la verdad de referencia

Prepara la salida esperada (etiqueta de oro) para cada entrada y puntúa por la tasa de coincidencia. Ideal para tareas con una respuesta fija: clasificación, extracción, sí/no.

② Comprobaciones por reglas

Comprueba mecánicamente regex, coincidencia exacta, validez del JSON, presencia de las claves obligatorias. Potente para verificar "debe devolver siempre este formato": rápido y barato.

③ LLM-as-judge

Haz que otro LLM califique según una rúbrica. Para tareas donde la respuesta no es única: calidad del resumen, tono, relevancia.

④ Pruebas de regresión

Compara las puntuaciones sobre el mismo conjunto de datos antes y después de un cambio de prompt o modelo. Detecta una "regresión oculta" donde el conjunto sube pero una parte baja.

⑤ Monitorización en producción

Puntúa y observa de forma continua los registros en vivo. Vigila la tasa de fallos, el coste, la latencia y la deriva de las entradas para detectar la degradación a tiempo.

Método	Encaja en	Coste	Objetividad
① Verdad de referencia	Clasificación, extracción, decisiones	Bajo	◎ Alta
② Por reglas	Comprobaciones de formato / estructura	Bajo	◎ Alta
③ LLM-as-judge	Resumen, generación, calidad del diálogo	Medio	○ Depende de la rúbrica
④ Regresión	Detectar regresiones por cambios	Medio	◎ Relativa
⑤ Monitorización en producción	Detectar degradación en vivo	Medio-Alto	○ Continua

La clave está en las capas: "mide mecánicamente lo que puedas (① ②), usa LLM-as-judge para la calidad que no puedas (③) y sigue ejecutándolo mediante regresión y producción (④ ⑤)". LLM-as-judge (③) es cómodo, pero el propio LLM que juzga varía, así que redacta la rúbrica de forma explícita y, cuando sea posible, calíbrala contra calificaciones humanas.

4. Evaluación específica de agentes

Para una única respuesta (una entrada → una salida), los cinco métodos anteriores bastan. Pero un agente de IA da varios pasos, llama a herramientas por sí mismo y toma decisiones por el camino. Por eso debes evaluar no solo la salida final, sino el proceso.

🎯 Tasa de éxito de la tarea

¿Logró el objetivo al final (p. ej., reservó la cita correcta)? La métrica principal del agente.

🛠️ Llamadas correctas a herramientas

¿Llamó a la herramienta adecuada, con los argumentos correctos y en el orden correcto? Detecta llamadas erróneas o redundantes.

🧭 Trayectoria

¿Es razonable el recorrido de pasos y decisiones? Evalúa rodeos, bucles infinitos y reintentos innecesarios.

💰 Coste y pasos

Para el mismo éxito, menos tokens, pasos y menos latencia es mejor. Importa en producción.

Observar esto exige trazado (tracing) que registre cada paso (entrada, razonamiento, llamada a herramienta, resultado). Muchos frameworks y las herramientas de abajo incluyen trazado y evaluación juntos. Para una configuración multiagente, mantén trazas jerárquicas para poder identificar qué agente falló.

5. Cómo empezar: construye en pequeño

No necesitas una plataforma de evals perfecta desde el primer día. Empezar con un conjunto de datos de 20 casos es realista.

Recopila ejemplos de fallo: primero, 10-20 "entradas que salieron mal". Los registros reales y las quejas son una mina de oro: este es el núcleo del conjunto de eval.
Escribe el comportamiento esperado: adjunta una "respuesta correcta" o "condiciones que cumplir" a cada entrada. No todo necesita una respuesta estricta (mide la calidad con ③).
Elige un puntuador: comprobaciones de formato → ② por reglas; respuesta fija → ① verdad de referencia; calidad → ③ LLM-as-judge. Basta con uno o dos para empezar.
Ejecuta una vez y fija una línea base: registra la puntuación actual. Ese es tu punto de referencia.
Ejecútalo en cada cambio: tras un cambio de prompt o modelo, vuelve a ejecutar y compara con ④ regresión. Si baja, no lo lances.
Añade observación en producción: una vez en vivo, sigue vigilando la tasa de fallos y el coste con ⑤ monitorización, y realimenta el conjunto de eval con los ejemplos reales malos.

💡 Consejo: sesga tu conjunto de eval hacia "los fallos que no quieres que ocurran" en lugar de "los éxitos habituales". Incluir casos límite, entradas adversarias y peticiones vagas te permite protegerte de forma proactiva frente a lo que se rompe con cada cambio. Una buena rúbrica, como un buen diseño de prompts, se vuelve más reproducible cuanto más concreta es.

6. Errores habituales

Conjunto de datos demasiado pequeño / demasiado sesgado: recopilar solo éxitos pasa por alto los fallos del mundo real. Mezcla deliberadamente fallos y casos límite.
Confiar ciegamente en LLM-as-judge: el LLM que juzga también varía y tiene sesgos. Redacta la rúbrica de forma explícita y calíbrala periódicamente contra calificaciones humanas. Cuidado con el autobombo (el mismo modelo escribe y alaba su propia salida).
Mirar solo la salida final: en los agentes, el proceso lo es todo. Sin llamadas a herramientas, trayectoria y coste, bendecirás un resultado "que tuvo suerte".
Decidir con una sola ejecución: como es probabilístico, para las evals importantes ejecuta varias veces y observa la varianza.
No actualizar las evals: las especificaciones y el uso cambian. Sigue añadiendo nuevos fallos de producción al conjunto de eval.

7. Herramientas clave

Puedes empezar con tus propios scripts, pero hay un conjunto creciente de herramientas dedicadas que manejan trazado y evaluación juntos. Ejemplos representativos (todos sitios oficiales).

Herramienta	Qué hace
Anthropic Console / Evals	Probar y evaluar prompts para Claude en una interfaz. También para comparar opciones de modelo.
OpenAI Evals	Un framework OSS para definir y ejecutar evals. La forma básica de conjunto de datos + puntuador.
LangSmith	Trazado + evaluación. Registra cada paso del agente, desde la regresión hasta la monitorización en producción.
Langfuse	Observabilidad de LLM OSS. Trazado, evaluación y monitorización de coste juntos.
Ragas	Evaluación especializada en RAG (generación aumentada por recuperación): relevancia, fidelidad y más.

Uses la que uses, la esencia es la misma: un conjunto de datos + un puntuador + la disciplina de comparar. Las herramientas solo lo facilitan. El mejor comienzo es un pequeño conjunto de eval, aunque sea en un script en tu propia máquina.

Resumen

Qué son las evals: "calificar" que mide la salida y el comportamiento de la IA con números, decidiendo mejor/peor con datos y no con intuición.
Por qué las necesitas: los LLM son probabilísticos y varían, así que las pruebas unitarias no encajan y las regresiones y los casos límite se cuelan.
Cinco métodos: ① verdad de referencia ② por reglas ③ LLM-as-judge ④ regresión ⑤ monitorización en producción. Mide mecánicamente lo que puedas, juzga la calidad con un LLM y sigue ejecutándolo.
Los agentes también necesitan evaluación del proceso: tasa de éxito de la tarea, llamadas a herramientas, trayectoria, coste. El trazado es el requisito previo.
Cómo empezar: 20 ejemplos de fallo. Fija su línea base y luego ejecútalo en cada cambio.

Entre "lo construí" y "es utilizable" hay un puente llamado evals. Si las guardrails son la defensa que frena el comportamiento descontrolado, las evals son el ataque que mide la calidad y la sigue elevando. Un único y pequeño conjunto de eval convierte el desarrollo de agentes de "intuición" en ingeniería.

FAQ

P. ¿En qué se diferencian las evals de las pruebas unitarias normales?

Las pruebas unitarias comprueban "¿coincide la salida exactamente con el valor esperado?". Pero un LLM es probabilístico y produce una salida distinta cada vez, así que la coincidencia exacta no sirve tal cual. Las evals se diferencian al combinar mediciones adecuadas a la salida probabilística —comprobaciones por reglas, calificación por un LLM y observación de la varianza en varias ejecuciones— además de la coincidencia con la verdad de referencia.

P. ¿Puedo fiarme de LLM-as-judge (dejar que una IA califique)?

Es cómodo, pero no es una bala de plata. El LLM que juzga puede variar y tener sesgos. Lo importante es redactar una rúbrica concreta, calibrar contra calificaciones humanas periódicamente y separar los roles/modelos de generación y calificación para evitar el autobombo. La comparación relativa (cuál de A o B es mejor) tiende a ser más estable que las puntuaciones absolutas.

P. ¿Cuántos casos de eval necesito?

Puedes empezar bien con 10-20. Aun con unos pocos ayudan en la comparación relativa de "¿subió o bajó la puntuación tras un cambio?". De forma realista, hazlo crecer añadiendo los fallos encontrados en producción. Más importante que la cantidad es incluir correctamente fallos, excepciones y casos límite.

P. ¿De verdad necesito evaluar la "trayectoria" de un agente?

Si lo ejecutas en producción, sí. Incluso cuando la salida final es correcta, los rodeos, las llamadas innecesarias a herramientas y los bucles infinitos perjudican el coste y la fiabilidad. Añade trazado que registre cada paso y mira el proceso junto con la tasa de éxito de la tarea. Cuanto más implique el caso de uso permisos y efectos secundarios —como los casos de uso de automatización empresarial o la automatización de operaciones en la nube—, más compensa la evaluación del proceso.

Evals de agentes de IA: 5 formas de medir la calidad (2026)

La conclusión, en 30 segundos

1. Por qué necesitas evals

2. Qué son las evals

3. Cinco formas de medir la calidad

4. Evaluación específica de agentes

5. Cómo empezar: construye en pequeño

6. Errores habituales

7. Herramientas clave

Resumen

FAQ

P. ¿En qué se diferencian las evals de las pruebas unitarias normales?

P. ¿Puedo fiarme de LLM-as-judge (dejar que una IA califique)?

P. ¿Cuántos casos de eval necesito?

P. ¿De verdad necesito evaluar la "trayectoria" de un agente?

Artículos relacionados

Las 20 mejores herramientas de IA generativa para desarrollo de videojuegos: arte, música y código

¿Qué es Claude Agent SDK? Guía completa para crear agentes de IA

Frameworks compatibles con IA generativa: guía completa de compatibilidad

Claude Code vs Codex: Precios, rendimiento y casos de uso comparados

Comentarios

Dejar un comentario