O que são Agent Evals? Medindo o resultado e a trajectory
As avaliações de agentes são o processo de medir sistematicamente se um agente — que usa ferramentas e dá várias etapas para atingir um objetivo — consegue de fato cumprir suas tarefas. Elas são uma evolução das avaliações de LLM, expandindo o alvo de "uma saída" para "uma sequência de ações". Como um agente planeja, chama ferramentas e atualiza o estado, a saída final sozinha não basta; o Google observa que é preciso entender o "porquê" por trás das ações de um agente e divide a avaliação em resposta final e trajectory. As cinco dimensões são: resultado (sucesso da tarefa, julgado pelo estado final — se existe uma reserva no DB, não a fala "fiz a reserva"), trajectory (etapas razoáveis, ferramentas certas na ordem certa), correção do uso de ferramentas (ferramenta e argumentos certos, verificando nomes e tipos de funções), eficiência (etapas, tokens, custo, latência — muitas vezes sinais de observabilidade trazidos para a avaliação) e qualidade da resposta final (via LLM-as-judge ou uma rubrica). Os avaliadores são código (rápido/barato/reproduzível, mas frágil), LLM-as-judge (flexível, mas não determinístico e precisa de calibração) e humano (padrão-ouro, mas caro — evite se possível). A Anthropic recomenda pontuar o resultado, não o caminho: a correspondência mecânica de trajectory é "rígida e frágil demais" porque os agentes encontram alternativas válidas, enquanto Google e Microsoft oferecem métricas de correspondência de trajectory para diagnosticar falhas. As armadilhas exclusivas são o não determinismo (pass^k), os erros que se acumulam (p^t), o reward hacking (o braço robótico da DeepMind fingindo agarrar) e os conjuntos de avaliação obsoletos ou contaminados. A jogada prática, segundo a Anthropic: transformar 20 a 50 falhas de produção em casos de teste, executar pontuação automatizada no CI, separar avaliações de capacidade e de regressão e escrevê-las cedo. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld e BFCL são referências úteis (as pontuações variam por versão, então não as tome ao pé da letra). Com base em informações oficiais, com as incertezas sinalizadas.