"Prompt engineering morreu" — esse refrão começou a circular por volta de 2025. O que surgiu para tomar seu lugar é o conceito de "Harness Engineering" (engenharia de arreio). Cunhado por pesquisadores da Anthropic e pelos engenheiros que constroem agentes como Claude Code e Cursor, rapidamente se tornou uma das disciplinas centrais de engenharia da era dos agentes de IA.

Este artigo expõe o que harness engineering realmente é, como se diferencia do prompt engineering, os seis componentes que formam um harness, um checklist prático de design e exemplos concretos das principais ferramentas de hoje — a base que você precisa se leva a sério usar ou construir agentes de IA.

MAPA CONCEITUAL

Um Harness = as 4 camadas que envolvem o LLM

— como o arreio de um cavalo, o equipamento que canaliza um animal poderoso rumo ao seu objetivo

1
NÚCLEO — LLM
O próprio motor de raciocínio (Claude / GPT / Gemini). Os prompts orientam seu comportamento.
2
CAMADA HARNESS
Definições de ferramentas, gestão de contexto, memória, agent loop. O design central que decide o que o LLM realmente faz.
3
CAMADA DE SEGURANÇA
Hooks, sandbox, limites de permissão, modo de aprovação. Bloqueia fisicamente comportamentos descontrolados e danos.
4
CAMADA DE UX
Renderização em markdown, citações, streaming, raciocínio visível. Saídas em que os usuários podem confiar e verificar.

Com o mesmo LLM, só o design do harness pode oscilar dramaticamente qualidade e segurança.
Esse é o campo de batalha do "Harness Engineering" — uma disciplina de design completamente nova.

1. O que é Harness Engineering?

"Harness" originalmente se refere ao arreio e à montaria usados em um cavalo — o equipamento que canaliza a força do animal na direção que você quer. O termo em IA funciona exatamente como a mesma metáfora: o conjunto completo de equipamentos que coloca um LLM poderoso, mas indomado, para fazer trabalho produtivo.

Concretamente, isso inclui:

  • Ferramentas: operações de arquivo, busca na web, execução de código — os meios pelos quais o LLM pode agir.
  • Gestão de contexto: a estratégia para o que entra no prompt e o que é comprimido ou descartado.
  • Sistemas de memória: conhecimento persistente e preferências do usuário que sobrevivem entre sessões.
  • Agent loop: o ciclo perceber → raciocinar → agir → observar.
  • Guardrails: permissões, sandbox, Hooks, fluxos de aprovação.
  • Formato de saída: markdown, JSON, citações, streaming.

Projetar tudo isso em conjunto é o que chamamos de harness engineering. Em vez de treinar ou melhorar o próprio LLM, é o ofício de elevar a utilidade no mundo real ao engenheirar tudo que está ao redor do LLM. Claude Code, Cursor, Devin, Codex CLI — todos rodam aproximadamente sobre os mesmos modelos, e ainda assim seu comportamento e desempenho divergem fortemente por causa da diferença em seus harnesses.

2. Harness Engineering vs Prompt Engineering

Prompt engineering não desapareceu — mas o escopo é fundamentalmente diferente.

DimensãoPrompt EngineeringHarness Engineering
AlvoTexto de entrada de um único turnoO sistema inteiro (ferramentas, memória, loop)
Trabalho principalOtimizar a redação do prompt, escolher exemplos few-shotDesign de ferramentas, estratégia de contexto, design do loop
EntregávelTemplates de textoCódigo, configuração, arquitetura de sistema
Habilidades necessáriasSensibilidade linguística, intuição sobre o comportamento do LLMEngenharia de software em geral
Escopo de impactoQualidade de uma respostaTaxa de conclusão, custo e segurança de tarefas longas
Exemplo"Pense passo a passo"Definir uma ferramenta calculadora e deixar o LLM chamá-la

Se prompt engineering é o ofício de "o que dizer ao LLM", harness engineering é o ofício de "o que dar ao LLM e como operá-lo". Os dois não competem — eles são empilhados em camadas. O prompt é apenas um componente dentro do harness.

3. Os 6 componentes de um harness

1. Tool Use (uso de ferramentas)

O meio pelo qual o LLM age sobre o mundo: ler e escrever arquivos, executar código, buscar na web, chamar APIs. Erre na interface da ferramenta — nomes, argumentos, valores de retorno — e o LLM não conseguirá usá-la corretamente. Concretamente:

  • Nomes inequívocos baseados em verbos (ex.: read_file).
  • Argumentos obrigatórios vs. opcionais explícitos, com valores padrão.
  • Mensagens de erro estruturadas em caso de falha (diga ao modelo o que fazer em seguida).
  • Avisos explícitos em operações com efeitos colaterais (destrutivas).

2. Gestão de contexto

A atenção do LLM é finita — o que você mostra a ele determina o que ele diz. Concretamente:

  • Filtragem por relevância: puxe apenas as partes relevantes para a tarefa, não arquivos inteiros.
  • Compactação: resuma conversas longas para retê-las.
  • Integração com RAG: busque o necessário via busca vetorial.
  • Cache: reduza o custo em system prompts repetidos usando ferramentas como o prompt cache da Anthropic.

Relacionado: O que é RAG?

3. Sistema de memória

Reter conhecimento entre sessões. O CLAUDE.md do Claude Code, o .cursor/rules do Cursor e o AGENTS.md do Codex são todos exemplos de memória de projeto. Além disso:

  • Memória de curto prazo: histórico recente da conversa.
  • Memória de longo prazo: perfil do usuário, decisões anteriores.
  • Conhecimento factual: bases de conhecimento específicas de domínio.

4. Agent loop

O núcleo que faz um "agente de IA" realmente funcionar. A forma básica é o ciclo perceber → raciocinar → agir → observar:

  1. Receber o objetivo do usuário.
  2. Analisar o estado atual (coletar informação com ferramentas, se preciso).
  3. Planejar a próxima ação.
  4. Agir via uma ferramenta.
  5. Observar o resultado; verificar se o objetivo foi alcançado.
  6. Repetir, se não; encerrar, se sim.

Quão inteligente seu agente fica depende de você embutir ou não replanejamento, autocrítica e decomposição de subobjetivos.

5. Guardrails

Os mecanismos que evitam comportamento descontrolado. Como aborda Por que a IA ignora suas regras .md, impor o comportamento pelo ambiente é muito mais confiável do que pedir educadamente em prosa:

  • Modo de aprovação: operações perigosas exigem confirmação humana (ex.: o Plan mode do Claude Code).
  • Sandbox: restringir acesso a sistema de arquivos e rede.
  • Hooks: verificações arbitrárias antes e depois das chamadas de ferramentas.
  • Rate limiting: minimizar danos se algo sair dos trilhos.

6. UX de saída

Apresentar resultados em uma forma que o usuário consiga entender e verificar. Renderização em markdown, citação de fontes, blocos de código com syntax highlighting, saída em streaming, raciocínio visível (thinking), saída estruturada (JSON), e por aí vai. Produzir a "resposta certa" não basta — é trabalho do harness entregá-la em uma forma em que o usuário possa confiar e verificar.

4. Por que Harness Engineering, e por que agora?

Três forças estão impulsionando o aumento de interesse no trabalho de harness.

1. O teto da capacidade bruta dos LLMs ficou visível. Com modelos da classe GPT-5, Claude Opus 4.7 e Gemini 3.1 Pro disponíveis, os ganhos em benchmarks começaram a estagnar. O desempenho no mundo real, para um modelo fixo, pode oscilar 2x ou mais dependendo do harness, o que significa que entramos em uma era em que mudar o harness paga mais do que mudar o modelo.

2. Problemas que os prompts sozinhos não resolvem estão se acumulando. "Ferramentas demais, o modelo escolhe a errada." "O contexto está tão lotado que o sinal importante fica enterrado." "Em tarefas longas, o agente perde o fio da meada no meio do caminho." Estes não são problemas que você resolve com uma redação mais esperta em um único turno — são problemas de design.

3. O gargalo dos agentes de IA em produção migrou para o harness. 2024 foi a corrida para tornar os LLMs mais inteligentes. De 2025 a 2026, a corrida é para tornar os harnesses mais inteligentes. Todo grande produto — Claude Code da Anthropic, Codex da OpenAI, Cursor, Devin — está competindo em harness engineering.

5. Um checklist prático de design de harness

7 pontos de verificação para um bom harness

1. DESIGN DE FERRAMENTAS
Verbos para nomes de ferramentas, argumentos explícitos
Erros voltam como mensagens estruturadas que dizem "faça isso em seguida".
2. CONTEXTO
Injete só o que é relevante, dinamicamente
Prompt cache mais RAG: o suficiente para ler, nunca o suficiente para engasgar.
3. MEMÓRIA
Uma única fonte de verdade para a memória persistente
Mantenha CLAUDE.md / AGENTS.md curtos, jogue os detalhes no SPEC.md.
4. LOOP
Deixe explícitas as condições de término
Sempre defina máximo de iterações, máximo de tokens e um timeout.
5. SEGURANÇA
Operações destrutivas exigem aprovação prévia
Hooks bloqueiam automaticamente; o sandbox limita o raio de impacto.
6. OBSERVABILIDADE
Registre todas as chamadas de ferramentas
Rastreabilidade para reconstruir o que aconteceu depois do fato.
7. CUSTO
Projete pensando na economia de tokens
Caching, APIs em batch, sub-agents — tudo mantém o custo mensal sob controle.

6. Comparando os principais harnesses

Tendências de design dos principais harnesses de agentes de IA

Claude Code
Anthropic
Pontos fortes
Hooks ricos / sub-agents / Plan mode / slash commands.
Memória
CLAUDE.md em nível de usuário e de projeto.
Cenário ideal
Codificação complexa, tarefas de longa duração
Cursor
Anysphere
Pontos fortes
Integração com IDE, seleção de contexto via @-mention.
Memória
.cursor/rules/*.mdc aplicado via padrões glob.
Cenário ideal
Edições interativas de código, feedback instantâneo
Codex CLI
OpenAI
Pontos fortes
Modo de aprovação alternável, sandbox forçado.
Memória
AGENTS.md (modelos da classe GPT-5 toleram arquivos mais longos).
Cenário ideal
Fluxos de CLI, integração com pipeline de código
Devin
Cognition
Pontos fortes
Agente totalmente autônomo com integração de browser, IDE e shell.
Memória
Memória persistente proprietária mais um recurso de Knowledge.
Cenário ideal
Tarefas para "delegar e esquecer", entrega ponta a ponta

Cada um destes harnesses roda sobre mais ou menos os mesmos LLMs (Claude / GPT / Gemini), e ainda assim seus pontos fortes divergem fortemente por causa de filosofias distintas de design de harness. "Qual harness?" importa mais que "qual LLM?" — esse é o verdadeiro campo de batalha da era dos agentes.

7. Antipadrões

1. Adicionar ferramentas demais

Quando você passa de cerca de 20 ferramentas, a chance de o LLM escolher a errada dispara. Seja implacável em manter só as ferramentas que você de fato precisa, e funda as semelhantes.

2. Empurrar tudo para dentro do contexto

"É só mostrar tudo, por garantia" é contraproducente. Passe as coisas por um filtro de relevância e inclua apenas o necessário. O contexto é um dispositivo para fazer emergir o sinal importante — não um depósito.

3. Implementar segurança só com prompts

"Por favor, não execute operações perigosas" cedo ou tarde acaba sendo ignorado, dependendo da situação. A resposta certa é torná-lo fisicamente impossível no nível do ambiente — sandbox, Hooks, limites de permissão.

Resumo

Harness engineering é o ofício de projetar a camada "do lado de fora" do LLM. Prompt engineering é apenas um componente dentro do harness. Tratar deliberadamente os seis elementos — definição de ferramentas, gestão de contexto, memória, loop, guardrails, UX de saída — pode transformar o desempenho no mundo real a partir do mesmo LLM subjacente.

Em 2026, o principal campo de batalha dos agentes de IA em produção claramente migrou para o harness. Construir "harnesses inteligentes" — não apenas escrever "prompts inteligentes" — será o diferencial para a próxima geração de engenheiros.

FAQ

Q1. Então não precisamos mais de prompt engineering?

Errado. Continua essencial — como um componente dentro do harness. Descrições de ferramentas, system prompts, mensagens de erro — tudo isso é superfície de design de prompt. O que ficou ultrapassado é a mentalidade de "vou consertar isso com um prompt melhor".

Q2. Qual o primeiro passo para aprender harness engineering?

Pegue o Claude Code ou o Cursor e não apenas use — mude o comportamento ajustando a configuração. Escreva um CLAUDE.md / .cursor/rules. Experimente Hooks. Construa um slash command. Essa é a experiência prática do que um harness realmente é.

Q3. Harnesses são o mesmo que frameworks como o LangChain?

Próximos, mas não a mesma coisa. Um framework é um kit de ferramentas de implementação; um harness é uma disciplina e mentalidade de design. LangChain, LlamaIndex, o Claude Agent SDK e afins são ferramentas para construir harnesses.

Q4. Construir o próprio harness ou usar um existente?

Para a maioria dos casos, um harness existente (Claude Code, Cursor, etc.) mais customização é suficiente. Construir um do zero só faz sentido para requisitos corporativos, domínios de nicho ou otimização extrema de custo.

Q5. "Harness engineer" vai virar um cargo de verdade?

Os sinais já estão aí. Anthropic, OpenAI, Cursor e outras empresas que constroem agentes começaram a contratar para funções como "Agent Engineer", "Tool Designer" e "Context Engineer". Em 2027 ou 2028, é provável que se consolide como uma categoria profissional distinta.