Índice
"Prompt engineering morreu" — esse refrão começou a circular por volta de 2025. O que surgiu para tomar seu lugar é o conceito de "Harness Engineering" (engenharia de arreio). Cunhado por pesquisadores da Anthropic e pelos engenheiros que constroem agentes como Claude Code e Cursor, rapidamente se tornou uma das disciplinas centrais de engenharia da era dos agentes de IA.
Este artigo expõe o que harness engineering realmente é, como se diferencia do prompt engineering, os seis componentes que formam um harness, um checklist prático de design e exemplos concretos das principais ferramentas de hoje — a base que você precisa se leva a sério usar ou construir agentes de IA.
Um Harness = as 4 camadas que envolvem o LLM
— como o arreio de um cavalo, o equipamento que canaliza um animal poderoso rumo ao seu objetivo
Com o mesmo LLM, só o design do harness pode oscilar dramaticamente qualidade e segurança.
Esse é o campo de batalha do "Harness Engineering" — uma disciplina de design completamente nova.
1. O que é Harness Engineering?
"Harness" originalmente se refere ao arreio e à montaria usados em um cavalo — o equipamento que canaliza a força do animal na direção que você quer. O termo em IA funciona exatamente como a mesma metáfora: o conjunto completo de equipamentos que coloca um LLM poderoso, mas indomado, para fazer trabalho produtivo.
Concretamente, isso inclui:
- Ferramentas: operações de arquivo, busca na web, execução de código — os meios pelos quais o LLM pode agir.
- Gestão de contexto: a estratégia para o que entra no prompt e o que é comprimido ou descartado.
- Sistemas de memória: conhecimento persistente e preferências do usuário que sobrevivem entre sessões.
- Agent loop: o ciclo perceber → raciocinar → agir → observar.
- Guardrails: permissões, sandbox, Hooks, fluxos de aprovação.
- Formato de saída: markdown, JSON, citações, streaming.
Projetar tudo isso em conjunto é o que chamamos de harness engineering. Em vez de treinar ou melhorar o próprio LLM, é o ofício de elevar a utilidade no mundo real ao engenheirar tudo que está ao redor do LLM. Claude Code, Cursor, Devin, Codex CLI — todos rodam aproximadamente sobre os mesmos modelos, e ainda assim seu comportamento e desempenho divergem fortemente por causa da diferença em seus harnesses.
2. Harness Engineering vs Prompt Engineering
Prompt engineering não desapareceu — mas o escopo é fundamentalmente diferente.
| Dimensão | Prompt Engineering | Harness Engineering |
|---|---|---|
| Alvo | Texto de entrada de um único turno | O sistema inteiro (ferramentas, memória, loop) |
| Trabalho principal | Otimizar a redação do prompt, escolher exemplos few-shot | Design de ferramentas, estratégia de contexto, design do loop |
| Entregável | Templates de texto | Código, configuração, arquitetura de sistema |
| Habilidades necessárias | Sensibilidade linguística, intuição sobre o comportamento do LLM | Engenharia de software em geral |
| Escopo de impacto | Qualidade de uma resposta | Taxa de conclusão, custo e segurança de tarefas longas |
| Exemplo | "Pense passo a passo" | Definir uma ferramenta calculadora e deixar o LLM chamá-la |
Se prompt engineering é o ofício de "o que dizer ao LLM", harness engineering é o ofício de "o que dar ao LLM e como operá-lo". Os dois não competem — eles são empilhados em camadas. O prompt é apenas um componente dentro do harness.
3. Os 6 componentes de um harness
1. Tool Use (uso de ferramentas)
O meio pelo qual o LLM age sobre o mundo: ler e escrever arquivos, executar código, buscar na web, chamar APIs. Erre na interface da ferramenta — nomes, argumentos, valores de retorno — e o LLM não conseguirá usá-la corretamente. Concretamente:
- Nomes inequívocos baseados em verbos (ex.:
read_file). - Argumentos obrigatórios vs. opcionais explícitos, com valores padrão.
- Mensagens de erro estruturadas em caso de falha (diga ao modelo o que fazer em seguida).
- Avisos explícitos em operações com efeitos colaterais (destrutivas).
2. Gestão de contexto
A atenção do LLM é finita — o que você mostra a ele determina o que ele diz. Concretamente:
- Filtragem por relevância: puxe apenas as partes relevantes para a tarefa, não arquivos inteiros.
- Compactação: resuma conversas longas para retê-las.
- Integração com RAG: busque o necessário via busca vetorial.
- Cache: reduza o custo em system prompts repetidos usando ferramentas como o prompt cache da Anthropic.
Relacionado: O que é RAG?
3. Sistema de memória
Reter conhecimento entre sessões. O CLAUDE.md do Claude Code, o .cursor/rules do Cursor e o AGENTS.md do Codex são todos exemplos de memória de projeto. Além disso:
- Memória de curto prazo: histórico recente da conversa.
- Memória de longo prazo: perfil do usuário, decisões anteriores.
- Conhecimento factual: bases de conhecimento específicas de domínio.
4. Agent loop
O núcleo que faz um "agente de IA" realmente funcionar. A forma básica é o ciclo perceber → raciocinar → agir → observar:
- Receber o objetivo do usuário.
- Analisar o estado atual (coletar informação com ferramentas, se preciso).
- Planejar a próxima ação.
- Agir via uma ferramenta.
- Observar o resultado; verificar se o objetivo foi alcançado.
- Repetir, se não; encerrar, se sim.
Quão inteligente seu agente fica depende de você embutir ou não replanejamento, autocrítica e decomposição de subobjetivos.
5. Guardrails
Os mecanismos que evitam comportamento descontrolado. Como aborda Por que a IA ignora suas regras .md, impor o comportamento pelo ambiente é muito mais confiável do que pedir educadamente em prosa:
- Modo de aprovação: operações perigosas exigem confirmação humana (ex.: o Plan mode do Claude Code).
- Sandbox: restringir acesso a sistema de arquivos e rede.
- Hooks: verificações arbitrárias antes e depois das chamadas de ferramentas.
- Rate limiting: minimizar danos se algo sair dos trilhos.
6. UX de saída
Apresentar resultados em uma forma que o usuário consiga entender e verificar. Renderização em markdown, citação de fontes, blocos de código com syntax highlighting, saída em streaming, raciocínio visível (thinking), saída estruturada (JSON), e por aí vai. Produzir a "resposta certa" não basta — é trabalho do harness entregá-la em uma forma em que o usuário possa confiar e verificar.
4. Por que Harness Engineering, e por que agora?
Três forças estão impulsionando o aumento de interesse no trabalho de harness.
1. O teto da capacidade bruta dos LLMs ficou visível. Com modelos da classe GPT-5, Claude Opus 4.7 e Gemini 3.1 Pro disponíveis, os ganhos em benchmarks começaram a estagnar. O desempenho no mundo real, para um modelo fixo, pode oscilar 2x ou mais dependendo do harness, o que significa que entramos em uma era em que mudar o harness paga mais do que mudar o modelo.
2. Problemas que os prompts sozinhos não resolvem estão se acumulando. "Ferramentas demais, o modelo escolhe a errada." "O contexto está tão lotado que o sinal importante fica enterrado." "Em tarefas longas, o agente perde o fio da meada no meio do caminho." Estes não são problemas que você resolve com uma redação mais esperta em um único turno — são problemas de design.
3. O gargalo dos agentes de IA em produção migrou para o harness. 2024 foi a corrida para tornar os LLMs mais inteligentes. De 2025 a 2026, a corrida é para tornar os harnesses mais inteligentes. Todo grande produto — Claude Code da Anthropic, Codex da OpenAI, Cursor, Devin — está competindo em harness engineering.
5. Um checklist prático de design de harness
7 pontos de verificação para um bom harness
6. Comparando os principais harnesses
Tendências de design dos principais harnesses de agentes de IA
Cada um destes harnesses roda sobre mais ou menos os mesmos LLMs (Claude / GPT / Gemini), e ainda assim seus pontos fortes divergem fortemente por causa de filosofias distintas de design de harness. "Qual harness?" importa mais que "qual LLM?" — esse é o verdadeiro campo de batalha da era dos agentes.
7. Antipadrões
1. Adicionar ferramentas demais
Quando você passa de cerca de 20 ferramentas, a chance de o LLM escolher a errada dispara. Seja implacável em manter só as ferramentas que você de fato precisa, e funda as semelhantes.
2. Empurrar tudo para dentro do contexto
"É só mostrar tudo, por garantia" é contraproducente. Passe as coisas por um filtro de relevância e inclua apenas o necessário. O contexto é um dispositivo para fazer emergir o sinal importante — não um depósito.
3. Implementar segurança só com prompts
"Por favor, não execute operações perigosas" cedo ou tarde acaba sendo ignorado, dependendo da situação. A resposta certa é torná-lo fisicamente impossível no nível do ambiente — sandbox, Hooks, limites de permissão.
Resumo
Harness engineering é o ofício de projetar a camada "do lado de fora" do LLM. Prompt engineering é apenas um componente dentro do harness. Tratar deliberadamente os seis elementos — definição de ferramentas, gestão de contexto, memória, loop, guardrails, UX de saída — pode transformar o desempenho no mundo real a partir do mesmo LLM subjacente.
Em 2026, o principal campo de batalha dos agentes de IA em produção claramente migrou para o harness. Construir "harnesses inteligentes" — não apenas escrever "prompts inteligentes" — será o diferencial para a próxima geração de engenheiros.
FAQ
Q1. Então não precisamos mais de prompt engineering?
Errado. Continua essencial — como um componente dentro do harness. Descrições de ferramentas, system prompts, mensagens de erro — tudo isso é superfície de design de prompt. O que ficou ultrapassado é a mentalidade de "vou consertar isso com um prompt melhor".
Q2. Qual o primeiro passo para aprender harness engineering?
Pegue o Claude Code ou o Cursor e não apenas use — mude o comportamento ajustando a configuração. Escreva um CLAUDE.md / .cursor/rules. Experimente Hooks. Construa um slash command. Essa é a experiência prática do que um harness realmente é.
Q3. Harnesses são o mesmo que frameworks como o LangChain?
Próximos, mas não a mesma coisa. Um framework é um kit de ferramentas de implementação; um harness é uma disciplina e mentalidade de design. LangChain, LlamaIndex, o Claude Agent SDK e afins são ferramentas para construir harnesses.
Q4. Construir o próprio harness ou usar um existente?
Para a maioria dos casos, um harness existente (Claude Code, Cursor, etc.) mais customização é suficiente. Construir um do zero só faz sentido para requisitos corporativos, domínios de nicho ou otimização extrema de custo.
Q5. "Harness engineer" vai virar um cargo de verdade?
Os sinais já estão aí. Anthropic, OpenAI, Cursor e outras empresas que constroem agentes começaram a contratar para funções como "Agent Engineer", "Tool Designer" e "Context Engineer". Em 2027 ou 2028, é provável que se consolide como uma categoria profissional distinta.