Que son las Agent Evals? Medir tanto el resultado como la trajectory
Las agent evals son el proceso de medir sistematicamente si un agente —uno que usa herramientas y da multiples pasos para alcanzar un objetivo— puede realmente cumplir sus tareas. Son una evolucion de las LLM evals, que amplia el objetivo de "una salida" a "una secuencia de acciones". Como un agente planifica, llama a herramientas y actualiza el estado, la salida final por si sola no basta; Google senala que hay que entender el "por que" detras de las acciones de un agente y divide la evaluacion en respuesta final y trajectory. Las cinco dimensiones son: resultado (exito de la tarea, juzgado por el estado final —si existe una reserva en la DB, no la frase "lo reserve"), trajectory (pasos razonables, herramientas correctas en el orden correcto), correccion en el uso de herramientas (herramienta y argumentos correctos, comprobando nombres de funcion y tipos), eficiencia (pasos, tokens, coste, latencia —a menudo senales de observabilidad llevadas a la evaluacion) y calidad de la respuesta final (via LLM-as-judge o una rubrica). Los evaluadores son codigo (rapido/barato/reproducible pero fragil), LLM-as-judge (flexible pero no determinista y necesita calibracion) y humano (estandar de oro pero caro —evitalo si es posible). Anthropic recomienda puntuar el resultado, no el camino: el emparejamiento mecanico de trajectory es "demasiado rigido y fragil" porque los agentes encuentran alternativas validas, mientras que Google y Microsoft ofrecen metricas de coincidencia de trajectory para diagnosticar fallos. Los escollos exclusivos son el no determinismo (pass^k), los errores que se acumulan (p^t), el reward hacking (el brazo robotico de DeepMind fingiendo un agarre) y los conjuntos de eval obsoletos o contaminados. La jugada practica, segun Anthropic: convertir 20-50 fallos de produccion en casos de prueba, ejecutar puntuacion automatizada en CI, separar capability y regression evals, y escribirlas pronto. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld y BFCL son referencias utiles (las puntuaciones cambian segun la version, asi que no las tomes al pie de la letra). Basado en informacion oficial, con las incertidumbres senaladas.