Que sont les agent evals ? Mesurer à la fois le résultat et la trajectory
Les agent evals sont le processus consistant à mesurer systématiquement si un agent — qui utilise des outils et enchaîne plusieurs étapes pour atteindre un objectif — parvient réellement à accomplir ses tâches. Elles sont une évolution des évaluations de LLM, élargissant la cible de « une sortie » à « une séquence d'actions ». Comme un agent planifie, appelle des outils et met à jour son état, la seule sortie finale ne suffit pas ; Google note qu'il faut comprendre le « pourquoi » derrière les actions d'un agent et scinde l'évaluation en réponse finale et trajectory. Les cinq dimensions sont : résultat (réussite de la tâche, jugée par l'état final — qu'une réservation existe dans la DB, et non l'énoncé « j'ai réservé »), trajectory (étapes raisonnables, bons outils dans le bon ordre), justesse de l'usage des outils (bon outil et bons arguments, vérification des noms de fonctions et des types), efficacité (étapes, tokens, coût, latence — souvent des signaux d'observabilité ramenés dans l'évaluation) et qualité de la réponse finale (via LLM-as-judge ou une grille). Les correcteurs sont le code (rapide/peu coûteux/reproductible mais fragile), le LLM-as-judge (souple mais non déterministe et nécessitant une calibration) et l'humain (référence absolue mais coûteux — à éviter si possible). Anthropic recommande de noter le résultat, pas le chemin : la correspondance mécanique de trajectory est « trop rigide et fragile » car les agents trouvent des alternatives valides, tandis que Google et Microsoft proposent des métriques de correspondance de trajectory pour diagnostiquer les échecs. Les pièges propres à ce domaine sont le non-déterminisme (pass^k), les erreurs cumulatives (p^t), le reward hacking (le bras robotisé de DeepMind feignant une prise) et les jeux d'évaluation périmés ou contaminés. La démarche pratique, selon Anthropic : transformer 20-50 échecs de production en cas de test, exécuter une notation automatisée dans le CI, séparer évaluations de capacité et de régression, et les écrire tôt. Des benchmarks comme SWE-bench, tau-bench, WebArena, GAIA, OSWorld et BFCL sont des références utiles (les scores bougent selon la version, ne les prenez pas au pied de la lettre). Basé sur des informations officielles, incertitudes signalées.