As avaliações de agentes são o processo de medir sistematicamente se um agente — que usa ferramentas e dá várias etapas para atingir um objetivo — consegue de fato cumprir suas tarefas. Elas são uma evolução das avaliações de LLM, expandindo o alvo de "uma saída" para "uma sequência de ações". Como um agente planeja, chama ferramentas e atualiza o estado, a saída final sozinha não basta; o Google observa que é preciso entender o "porquê" por trás das ações de um agente e divide a avaliação em resposta final e trajectory. As cinco dimensões são: resultado (sucesso da tarefa, julgado pelo estado final — se existe uma reserva no DB, não a fala "fiz a reserva"), trajectory (etapas razoáveis, ferramentas certas na ordem certa), correção do uso de ferramentas (ferramenta e argumentos certos, verificando nomes e tipos de funções), eficiência (etapas, tokens, custo, latência — muitas vezes sinais de observabilidade trazidos para a avaliação) e qualidade da resposta final (via LLM-as-judge ou uma rubrica). Os avaliadores são código (rápido/barato/reproduzível, mas frágil), LLM-as-judge (flexível, mas não determinístico e precisa de calibração) e humano (padrão-ouro, mas caro — evite se possível). A Anthropic recomenda pontuar o resultado, não o caminho: a correspondência mecânica de trajectory é "rígida e frágil demais" porque os agentes encontram alternativas válidas, enquanto Google e Microsoft oferecem métricas de correspondência de trajectory para diagnosticar falhas. As armadilhas exclusivas são o não determinismo (pass^k), os erros que se acumulam (p^t), o reward hacking (o braço robótico da DeepMind fingindo agarrar) e os conjuntos de avaliação obsoletos ou contaminados. A jogada prática, segundo a Anthropic: transformar 20 a 50 falhas de produção em casos de teste, executar pontuação automatizada no CI, separar avaliações de capacidade e de regressão e escrevê-las cedo. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld e BFCL são referências úteis (as pontuações variam por versão, então não as tome ao pé da letra). Com base em informações oficiais, com as incertezas sinalizadas.

2026/06/20

Artigos recentes

Ver tudo

Claude Dev IA e Programação Iniciantes

O que são Agent Evals? Medindo o resultado e a trajectory

2026/06/20

Claude Dev IA e Programação Iniciantes

O Que São os Hooks do Claude Code? Comandos Determinísticos

Os hooks do Claude Code são comandos de shell definidos pelo usuário que rodam automaticamente em pontos específicos do ciclo de vida do Claude Code, tornando o "isto precisa sempre acontecer" real e determinístico sem depender do julgamento do LLM. Os eventos clássicos são nove — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — dos quais PreToolUse e outros podem bloquear (impedindo edições em arquivos protegidos ou comandos perigosos). Você os configura em settings.json sob a chave "hooks" como nome do evento -> matcher -> type + command. O contrato de E/S: um hook recebe JSON na stdin (session_id, tool_input, etc.) e retorna via código de saída 0 (sucesso) / 2 (bloquear, com a stderr passada de volta ao Claude) ou JSON estruturado (continue, decision:block, permissionDecision: deny/allow/ask). O princípio-chave é "os hooks podem apertar, mas não afrouxar restrições" (deny sempre vence, bloqueia até sob bypassPermissions). Casos de uso clássicos: formatar após edições (PostToolUse + Edit|Write), proteger arquivos críticos, bloquear comandos perigosos, reinjetar contexto (SessionStart), notificações/log de auditoria e testar antes de parar (Stop). Sobre segurança, os hooks executam comandos de shell arbitrários com os seus privilégios, então configure apenas os confiáveis e valide/coloque entre aspas as entradas; a configuração dos hooks é capturada no início da sessão (um recurso de segurança), então alterações no meio da sessão não se aplicam. Com base na documentação oficial, ancorado nos nove eventos clássicos e no contrato de E/S.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são checkpointing e /rewind no Claude Code? Reverta mudanças

O checkpointing e o /rewind são uma rede de segurança: o Claude Code rastreia automaticamente as edições de arquivos do Claude enquanto você trabalha, para que você possa reverter para "antes de dar errado" com alguns toques de tecla. Um snapshot é tirado antes de cada edição, cada prompt que você envia vira um ponto de restauração, e os checkpoints persistem entre sessões. Para usar, digite /rewind ou pressione Esc duas vezes quando o campo está vazio para abrir o menu, escolha um ponto e selecione Restaurar código e conversa / Restaurar conversa / Restaurar código (atenção: se o campo tem texto, Esc duas vezes o limpa em vez disso). A ressalva mais importante: apenas as mudanças feitas pelas ferramentas de edição do Claude (Write/Edit/NotebookEdit) são restauradas — mudanças de arquivo por comandos bash (rm/mv/cp), mudanças fora da sessão ou de outras sessões, operações de diretório, arquivos remotos e estado de banco de dados NÃO são desfeitas pelo rewind. A documentação enquadra assim: "checkpoints = desfazer local, Git = histórico permanente," afirmando que ele complementa, mas não substitui o controle de versão, então fazer commit no Git nos marcos é a regra. O /rewind também é a recuperação para o erro 400 ligado à concorrência de uso de ferramentas e blocos de raciocínio (o próprio produto pede para rodá-lo), embora versões anteriores à v2.1.156 possam não eliminá-lo, então claude update vem primeiro. Está ativado por padrão na CLI interativa, é opt-in no Agent SDK e retido junto com as sessões por 30 dias (configurável). Com base na documentação oficial, com incertezas sinalizadas.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são os Claude Managed Agents? A nuvem totalmente gerenciada da Anthropic

Os Claude Managed Agents foram lançados como beta público em 8 de abril de 2026, como um conjunto de APIs combináveis para construir e implantar agentes hospedados na nuvem em escala. Em vez de construir o seu próprio loop de agente, execução de ferramentas e runtime, você ganha um ambiente totalmente gerenciado onde o Claude pode ler arquivos, executar comandos, navegar na web e rodar código com segurança, com cache de prompt, compactação de contexto, sandboxing e persistência de estado embutidos. Está organizado em torno de quatro conceitos (Agent, Environment, Session, Events), e o Environment pode ser um sandbox em nuvem gerenciado pela Anthropic ou um auto-hospedado. A diferença para o Agent SDK auto-hospedado (onde você roda o loop, as ferramentas e a infraestrutura) é "você roda vs a Anthropic roda" — não são concorrentes, mas uma escolha sobre quanto da operação você mantém. Um recurso marcante é a memória persistente com escopo de workspace (um memory store) montada no sandbox em /mnt/memory, que o agente lê e escreve com operações normais de arquivo e que persiste entre sessões (versões imutáveis, retenção de 30 dias, limites como 100 kB por memória). O dreaming é um job assíncrono que lê a memória existente e transcrições passadas para produzir um memory store reorganizado — mesclando duplicatas, atualizando valores obsoletos e trazendo à tona novos insights (um research preview que exige acesso; alguns o chamam de "agendado", mas a documentação descreve um job assíncrono sob demanda). Também tem avaliação baseada em resultados (um avaliador separado avalia contra a sua rubrica; relatada uma melhoria de até 10 pontos) e orquestração multiagente. O preço é tokens + $0.08 por hora de sessão (medido ao milissegundo, apenas enquanto roda; cerca de $0.705 para uma sessão Opus 4.8 de 1 hora). Habilitado por padrão para todas as contas de API, mas stateful, então não elegível para ZDR nem para um HIPAA BAA. Com base em informações oficiais, com incertezas sinalizadas.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são os plugins e o marketplace do Claude Code

Um plugin do Claude Code reúne seus slash commands, subagentes, servidores MCP e hooks em uma única unidade que você pode versionar, compartilhar e reutilizar; um marketplace é onde eles são distribuídos. Este artigo explica, com base na documentação oficial, o que é um plugin e sua estrutura, como usar o /plugin e os marketplaces, o marketplace oficial (claude.com/plugins) e o da comunidade, como criar e publicar o seu próprio via git, e o escopo de distribuição e a segurança — incluindo o fato de que plugins podem executar código arbitrário.

2026/06/20

Claude Dev IA e Programação Iniciantes

Subagents vs Agent Teams no Claude Code: qual usar

No Claude Code existem dois mecanismos parecidos, mas diferentes, para dividir o trabalho entre AIs: os subagents (nativos) e os Agent Teams (experimentais). Os subagents são hierárquicos — o agente principal delega uma tarefa focada a um ajudante de contexto novo e recebe de volta apenas um resumo, e aninham até 5 níveis. Os Agent Teams são peer-to-peer e desativados por padrão (precisam de CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1). Este artigo explica, com base na documentação oficial, a diferença decisiva, qual usar e como.

2026/06/20