Desenvolvimento com IA e Programação: Crie Apps com IA [2026]

O que são Agent Evals? Medindo o resultado e a trajectory

As avaliações de agentes são o processo de medir sistematicamente se um agente — que usa ferramentas e dá várias etapas para atingir um objetivo — consegue de fato cumprir suas tarefas. Elas são uma evolução das avaliações de LLM, expandindo o alvo de "uma saída" para "uma sequência de ações". Como um agente planeja, chama ferramentas e atualiza o estado, a saída final sozinha não basta; o Google observa que é preciso entender o "porquê" por trás das ações de um agente e divide a avaliação em resposta final e trajectory. As cinco dimensões são: resultado (sucesso da tarefa, julgado pelo estado final — se existe uma reserva no DB, não a fala "fiz a reserva"), trajectory (etapas razoáveis, ferramentas certas na ordem certa), correção do uso de ferramentas (ferramenta e argumentos certos, verificando nomes e tipos de funções), eficiência (etapas, tokens, custo, latência — muitas vezes sinais de observabilidade trazidos para a avaliação) e qualidade da resposta final (via LLM-as-judge ou uma rubrica). Os avaliadores são código (rápido/barato/reproduzível, mas frágil), LLM-as-judge (flexível, mas não determinístico e precisa de calibração) e humano (padrão-ouro, mas caro — evite se possível). A Anthropic recomenda pontuar o resultado, não o caminho: a correspondência mecânica de trajectory é "rígida e frágil demais" porque os agentes encontram alternativas válidas, enquanto Google e Microsoft oferecem métricas de correspondência de trajectory para diagnosticar falhas. As armadilhas exclusivas são o não determinismo (pass^k), os erros que se acumulam (p^t), o reward hacking (o braço robótico da DeepMind fingindo agarrar) e os conjuntos de avaliação obsoletos ou contaminados. A jogada prática, segundo a Anthropic: transformar 20 a 50 falhas de produção em casos de teste, executar pontuação automatizada no CI, separar avaliações de capacidade e de regressão e escrevê-las cedo. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld e BFCL são referências úteis (as pontuações variam por versão, então não as tome ao pé da letra). Com base em informações oficiais, com as incertezas sinalizadas.

2026/06/20

Claude Dev IA e Programação Iniciantes

O Que São os Hooks do Claude Code? Comandos Determinísticos

Os hooks do Claude Code são comandos de shell definidos pelo usuário que rodam automaticamente em pontos específicos do ciclo de vida do Claude Code, tornando o "isto precisa sempre acontecer" real e determinístico sem depender do julgamento do LLM. Os eventos clássicos são nove — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — dos quais PreToolUse e outros podem bloquear (impedindo edições em arquivos protegidos ou comandos perigosos). Você os configura em settings.json sob a chave "hooks" como nome do evento -> matcher -> type + command. O contrato de E/S: um hook recebe JSON na stdin (session_id, tool_input, etc.) e retorna via código de saída 0 (sucesso) / 2 (bloquear, com a stderr passada de volta ao Claude) ou JSON estruturado (continue, decision:block, permissionDecision: deny/allow/ask). O princípio-chave é "os hooks podem apertar, mas não afrouxar restrições" (deny sempre vence, bloqueia até sob bypassPermissions). Casos de uso clássicos: formatar após edições (PostToolUse + Edit|Write), proteger arquivos críticos, bloquear comandos perigosos, reinjetar contexto (SessionStart), notificações/log de auditoria e testar antes de parar (Stop). Sobre segurança, os hooks executam comandos de shell arbitrários com os seus privilégios, então configure apenas os confiáveis e valide/coloque entre aspas as entradas; a configuração dos hooks é capturada no início da sessão (um recurso de segurança), então alterações no meio da sessão não se aplicam. Com base na documentação oficial, ancorado nos nove eventos clássicos e no contrato de E/S.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são checkpointing e /rewind no Claude Code? Reverta mudanças

O checkpointing e o /rewind são uma rede de segurança: o Claude Code rastreia automaticamente as edições de arquivos do Claude enquanto você trabalha, para que você possa reverter para "antes de dar errado" com alguns toques de tecla. Um snapshot é tirado antes de cada edição, cada prompt que você envia vira um ponto de restauração, e os checkpoints persistem entre sessões. Para usar, digite /rewind ou pressione Esc duas vezes quando o campo está vazio para abrir o menu, escolha um ponto e selecione Restaurar código e conversa / Restaurar conversa / Restaurar código (atenção: se o campo tem texto, Esc duas vezes o limpa em vez disso). A ressalva mais importante: apenas as mudanças feitas pelas ferramentas de edição do Claude (Write/Edit/NotebookEdit) são restauradas — mudanças de arquivo por comandos bash (rm/mv/cp), mudanças fora da sessão ou de outras sessões, operações de diretório, arquivos remotos e estado de banco de dados NÃO são desfeitas pelo rewind. A documentação enquadra assim: "checkpoints = desfazer local, Git = histórico permanente," afirmando que ele complementa, mas não substitui o controle de versão, então fazer commit no Git nos marcos é a regra. O /rewind também é a recuperação para o erro 400 ligado à concorrência de uso de ferramentas e blocos de raciocínio (o próprio produto pede para rodá-lo), embora versões anteriores à v2.1.156 possam não eliminá-lo, então claude update vem primeiro. Está ativado por padrão na CLI interativa, é opt-in no Agent SDK e retido junto com as sessões por 30 dias (configurável). Com base na documentação oficial, com incertezas sinalizadas.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são os Claude Managed Agents? A nuvem totalmente gerenciada da Anthropic

Os Claude Managed Agents foram lançados como beta público em 8 de abril de 2026, como um conjunto de APIs combináveis para construir e implantar agentes hospedados na nuvem em escala. Em vez de construir o seu próprio loop de agente, execução de ferramentas e runtime, você ganha um ambiente totalmente gerenciado onde o Claude pode ler arquivos, executar comandos, navegar na web e rodar código com segurança, com cache de prompt, compactação de contexto, sandboxing e persistência de estado embutidos. Está organizado em torno de quatro conceitos (Agent, Environment, Session, Events), e o Environment pode ser um sandbox em nuvem gerenciado pela Anthropic ou um auto-hospedado. A diferença para o Agent SDK auto-hospedado (onde você roda o loop, as ferramentas e a infraestrutura) é "você roda vs a Anthropic roda" — não são concorrentes, mas uma escolha sobre quanto da operação você mantém. Um recurso marcante é a memória persistente com escopo de workspace (um memory store) montada no sandbox em /mnt/memory, que o agente lê e escreve com operações normais de arquivo e que persiste entre sessões (versões imutáveis, retenção de 30 dias, limites como 100 kB por memória). O dreaming é um job assíncrono que lê a memória existente e transcrições passadas para produzir um memory store reorganizado — mesclando duplicatas, atualizando valores obsoletos e trazendo à tona novos insights (um research preview que exige acesso; alguns o chamam de "agendado", mas a documentação descreve um job assíncrono sob demanda). Também tem avaliação baseada em resultados (um avaliador separado avalia contra a sua rubrica; relatada uma melhoria de até 10 pontos) e orquestração multiagente. O preço é tokens + $0.08 por hora de sessão (medido ao milissegundo, apenas enquanto roda; cerca de $0.705 para uma sessão Opus 4.8 de 1 hora). Habilitado por padrão para todas as contas de API, mas stateful, então não elegível para ZDR nem para um HIPAA BAA. Com base em informações oficiais, com incertezas sinalizadas.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que são os plugins e o marketplace do Claude Code

Um plugin do Claude Code reúne seus slash commands, subagentes, servidores MCP e hooks em uma única unidade que você pode versionar, compartilhar e reutilizar; um marketplace é onde eles são distribuídos. Este artigo explica, com base na documentação oficial, o que é um plugin e sua estrutura, como usar o /plugin e os marketplaces, o marketplace oficial (claude.com/plugins) e o da comunidade, como criar e publicar o seu próprio via git, e o escopo de distribuição e a segurança — incluindo o fato de que plugins podem executar código arbitrário.

2026/06/20

Claude Dev IA e Programação Iniciantes

Subagents vs Agent Teams no Claude Code: qual usar

No Claude Code existem dois mecanismos parecidos, mas diferentes, para dividir o trabalho entre AIs: os subagents (nativos) e os Agent Teams (experimentais). Os subagents são hierárquicos — o agente principal delega uma tarefa focada a um ajudante de contexto novo e recebe de volta apenas um resumo, e aninham até 5 níveis. Os Agent Teams são peer-to-peer e desativados por padrão (precisam de CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1). Este artigo explica, com base na documentação oficial, a diferença decisiva, qual usar e como.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que é o Claude Design e o /design-sync: design por conversa

O Claude Design é uma ferramenta do Anthropic Labs que permite criar designs de UI, protótipos, slides e one-pagers por meio de conversa. A grande reformulação de 17 de junho de 2026 adicionou importação de design systems e o comando /design-sync, que sincroniza com o Claude Code nos dois sentidos: puxa o design system para o repo e envia o código de volta ao canvas. Este artigo explica, com base em informações oficiais, o que é, o que mudou em junho, a disponibilidade e por que isso importa.

2026/06/20

Claude Dev IA e Programação Iniciantes

O que é o Claude Code Artifacts? Transforme uma sessão em página viva

Em 18 de junho de 2026, a Anthropic lançou o Claude Code Artifacts (beta), um recurso que transforma uma sessão de programação no terminal em uma página web viva que sua equipe pode compartilhar. Em vez de despejar infinitos git diff e logs como texto, o Claude Code pode publicar um passo a passo anotado de um PR, um dashboard que se atualiza sozinho, uma linha do tempo de incidente ou um mapa de arquitetura como uma única página em uma URL privada do claude.ai. Este artigo explica o que é o Artifacts, como ele difere do Artifacts estilo canvas de 2024, para que serve, como usar (sem comando /artifact — você pede em linguagem natural), seus limites (uma captura do trabalho, não um app) e a disponibilidade para Team / Enterprise — tudo com base na documentação oficial.

2026/06/20

Claude Dev IA e Programação Iniciantes

Claude Code: erro de login e autenticação (Invalid API key / Not logged in)

Os erros de login e autenticação do Claude Code (Not logged in, Invalid API key, organization disabled, OAuth token expired) são, em sua maioria, 401/403 de credencial. A causa mais frequente é a variável de ambiente ANTHROPIC_API_KEY sobrepondo silenciosamente o login da assinatura, gerando cobranças inesperadas. Diagnostique sempre com /status, cace a chave perdida com env | grep ANTHROPIC e refaça /logout → /login.

2026/06/20

Claude Dev IA e Programação Iniciantes

Claude Code: erro command not found e problemas de instalação/PATH

O erro "command not found: claude" do Claude Code, na maioria das vezes, significa apenas que o diretório de instalação (~/.local/bin) não está no PATH — o binário existe. Este guia cobre métodos de instalação, como corrigir o PATH, o erro de permissão EACCES do npm (sem sudo: use o nativo), conflitos de múltiplas instalações, armadilhas do Windows e o fluxo de diagnóstico com claude doctor.

2026/06/20

Claude Dev IA e Programação Iniciantes

Claude Code: erro de conexão de rede, proxy e certificado TLS

Os erros de rede do Claude Code (Unable to connect to API, fetch failed, SSL certificate verification failed) significam que a requisição nunca chegou ao servidor da Anthropic — diferente de autenticação (401/403), servidor (529/500) e taxa (429). Este guia cobre a configuração de proxy (HTTPS_PROXY), os certificados de CA corporativa em NODE_EXTRA_CA_CERTS (com segurança), os domínios a liberar no firewall e o fluxo de diagnóstico começando por curl.

2026/06/20

Claude Dev IA e Programação Iniciantes

Claude Code 529 Overloaded / 500: o que significa e como resolver

O "API Error: 529 Overloaded" e o "500 Internal server error" do Claude Code são eventos do lado do servidor: a API da Anthropic está temporariamente sobrecarregada ou com erro interno. Não são culpa sua nem esgotamento de cota, e o Claude Code já tenta de novo até 10 vezes com backoff exponencial. A solução é esperar, trocar de modelo com /model e verificar o status.claude.com — e como distinguir de 429, usage limit e 400.

2026/06/20