"Harness engineer" vai virar um cargo de verdade?

Os sinais já estão aí. Anthropic, OpenAI, Cursor e outras empresas que constroem agentes começaram a contratar para funções como "Agent Engineer", "Tool Designer" e "Context Engineer". Em 2027 ou 2028, é provável que se consolide como uma categoria profissional distinta.

O que é Harness Engineering? A nova disciplina da era dos agentes de IA

Q: Então não precisamos mais de prompt engineering?

Errado. Continua essencial — como um componente dentro do harness. Descrições de ferramentas, system prompts, mensagens de erro — tudo isso é superfície de design de prompt. O que ficou ultrapassado é a mentalidade de &quot;vou consertar isso com um prompt melhor&quot;.

Q: Qual o primeiro passo para aprender harness engineering?

Pegue o Claude Code ou o Cursor e não apenas use — mude o comportamento ajustando a configuração. Escreva um CLAUDE.md / .cursor/rules. Experimente Hooks. Construa um slash command. Essa é a experiência prática do que um harness realmente é.

Q: Harnesses são o mesmo que frameworks como o LangChain?

Próximos, mas não a mesma coisa. Um framework é um kit de ferramentas de implementação; um harness é uma disciplina e mentalidade de design. LangChain, LlamaIndex, o Claude Agent SDK e afins são ferramentas para construir harnesses.

Q: Construir o próprio harness ou usar um existente?

Para a maioria dos casos, um harness existente (Claude Code, Cursor, etc.) mais customização é suficiente. Construir um do zero só faz sentido para requisitos corporativos, domínios de nicho ou otimização extrema de custo.

O que é Harness Engineering? Projetando a camada ao redor do LLM na era dos agentes de IA

Índice

1. O que é Harness Engineering?
2. Harness Engineering vs Prompt Engineering
3. Os 6 componentes de um harness
4. Por que Harness Engineering, e por que agora?
5. Um checklist prático de design de harness
6. Comparando os principais harnesses
7. Antipadrões
Resumo
FAQ

"Prompt engineering morreu" — esse refrão começou a circular por volta de 2025. O que surgiu para tomar seu lugar é o conceito de "Harness Engineering" (engenharia de arreio). Cunhado por pesquisadores da Anthropic e pelos engenheiros que constroem agentes como Claude Code e Cursor, rapidamente se tornou uma das disciplinas centrais de engenharia da era dos agentes de IA.

Este artigo expõe o que harness engineering realmente é, como se diferencia do prompt engineering, os seis componentes que formam um harness, um checklist prático de design e exemplos concretos das principais ferramentas de hoje — a base que você precisa se leva a sério usar ou construir agentes de IA.

MAPA CONCEITUAL

Um Harness = as 4 camadas que envolvem o LLM

— como o arreio de um cavalo, o equipamento que canaliza um animal poderoso rumo ao seu objetivo

NÚCLEO — LLM

O próprio motor de raciocínio (Claude / GPT / Gemini). Os prompts orientam seu comportamento.

CAMADA HARNESS

Definições de ferramentas, gestão de contexto, memória, agent loop. O design central que decide o que o LLM realmente faz.

CAMADA DE SEGURANÇA

Hooks, sandbox, limites de permissão, modo de aprovação. Bloqueia fisicamente comportamentos descontrolados e danos.

CAMADA DE UX

Renderização em markdown, citações, streaming, raciocínio visível. Saídas em que os usuários podem confiar e verificar.

Com o mesmo LLM, só o design do harness pode oscilar dramaticamente qualidade e segurança.
Esse é o campo de batalha do "Harness Engineering" — uma disciplina de design completamente nova.

1. O que é Harness Engineering?

"Harness" originalmente se refere ao arreio e à montaria usados em um cavalo — o equipamento que canaliza a força do animal na direção que você quer. O termo em IA funciona exatamente como a mesma metáfora: o conjunto completo de equipamentos que coloca um LLM poderoso, mas indomado, para fazer trabalho produtivo.

Concretamente, isso inclui:

Ferramentas: operações de arquivo, busca na web, execução de código — os meios pelos quais o LLM pode agir.
Gestão de contexto: a estratégia para o que entra no prompt e o que é comprimido ou descartado.
Sistemas de memória: conhecimento persistente e preferências do usuário que sobrevivem entre sessões.
Agent loop: o ciclo perceber → raciocinar → agir → observar.
Guardrails: permissões, sandbox, Hooks, fluxos de aprovação.
Formato de saída: markdown, JSON, citações, streaming.

Projetar tudo isso em conjunto é o que chamamos de harness engineering. Em vez de treinar ou melhorar o próprio LLM, é o ofício de elevar a utilidade no mundo real ao engenheirar tudo que está ao redor do LLM. Claude Code, Cursor, Devin, Codex CLI — todos rodam aproximadamente sobre os mesmos modelos, e ainda assim seu comportamento e desempenho divergem fortemente por causa da diferença em seus harnesses.

2. Harness Engineering vs Prompt Engineering

Prompt engineering não desapareceu — mas o escopo é fundamentalmente diferente.

Dimensão	Prompt Engineering	Harness Engineering
Alvo	Texto de entrada de um único turno	O sistema inteiro (ferramentas, memória, loop)
Trabalho principal	Otimizar a redação do prompt, escolher exemplos few-shot	Design de ferramentas, estratégia de contexto, design do loop
Entregável	Templates de texto	Código, configuração, arquitetura de sistema
Habilidades necessárias	Sensibilidade linguística, intuição sobre o comportamento do LLM	Engenharia de software em geral
Escopo de impacto	Qualidade de uma resposta	Taxa de conclusão, custo e segurança de tarefas longas
Exemplo	"Pense passo a passo"	Definir uma ferramenta calculadora e deixar o LLM chamá-la

Se prompt engineering é o ofício de "o que dizer ao LLM", harness engineering é o ofício de "o que dar ao LLM e como operá-lo". Os dois não competem — eles são empilhados em camadas. O prompt é apenas um componente dentro do harness.

3. Os 6 componentes de um harness

1. Tool Use (uso de ferramentas)

O meio pelo qual o LLM age sobre o mundo: ler e escrever arquivos, executar código, buscar na web, chamar APIs. Erre na interface da ferramenta — nomes, argumentos, valores de retorno — e o LLM não conseguirá usá-la corretamente. Concretamente:

Nomes inequívocos baseados em verbos (ex.: read_file).
Argumentos obrigatórios vs. opcionais explícitos, com valores padrão.
Mensagens de erro estruturadas em caso de falha (diga ao modelo o que fazer em seguida).
Avisos explícitos em operações com efeitos colaterais (destrutivas).

2. Gestão de contexto

A atenção do LLM é finita — o que você mostra a ele determina o que ele diz. Concretamente:

Filtragem por relevância: puxe apenas as partes relevantes para a tarefa, não arquivos inteiros.
Compactação: resuma conversas longas para retê-las.
Integração com RAG: busque o necessário via busca vetorial.
Cache: reduza o custo em system prompts repetidos usando ferramentas como o prompt cache da Anthropic.

Relacionado: O que é RAG?

3. Sistema de memória

Reter conhecimento entre sessões. O CLAUDE.md do Claude Code, o .cursor/rules do Cursor e o AGENTS.md do Codex são todos exemplos de memória de projeto. Além disso:

Memória de curto prazo: histórico recente da conversa.
Memória de longo prazo: perfil do usuário, decisões anteriores.
Conhecimento factual: bases de conhecimento específicas de domínio.

4. Agent loop

O núcleo que faz um "agente de IA" realmente funcionar. A forma básica é o ciclo perceber → raciocinar → agir → observar:

Receber o objetivo do usuário.
Analisar o estado atual (coletar informação com ferramentas, se preciso).
Planejar a próxima ação.
Agir via uma ferramenta.
Observar o resultado; verificar se o objetivo foi alcançado.
Repetir, se não; encerrar, se sim.

Quão inteligente seu agente fica depende de você embutir ou não replanejamento, autocrítica e decomposição de subobjetivos.

5. Guardrails

Os mecanismos que evitam comportamento descontrolado. Como aborda Por que a IA ignora suas regras .md, impor o comportamento pelo ambiente é muito mais confiável do que pedir educadamente em prosa:

Modo de aprovação: operações perigosas exigem confirmação humana (ex.: o Plan mode do Claude Code).
Sandbox: restringir acesso a sistema de arquivos e rede.
Hooks: verificações arbitrárias antes e depois das chamadas de ferramentas.
Rate limiting: minimizar danos se algo sair dos trilhos.

6. UX de saída

Apresentar resultados em uma forma que o usuário consiga entender e verificar. Renderização em markdown, citação de fontes, blocos de código com syntax highlighting, saída em streaming, raciocínio visível (thinking), saída estruturada (JSON), e por aí vai. Produzir a "resposta certa" não basta — é trabalho do harness entregá-la em uma forma em que o usuário possa confiar e verificar.

4. Por que Harness Engineering, e por que agora?

Três forças estão impulsionando o aumento de interesse no trabalho de harness.

1. O teto da capacidade bruta dos LLMs ficou visível. Com modelos da classe GPT-5, Claude Opus 4.7 e Gemini 3.1 Pro disponíveis, os ganhos em benchmarks começaram a estagnar. O desempenho no mundo real, para um modelo fixo, pode oscilar 2x ou mais dependendo do harness, o que significa que entramos em uma era em que mudar o harness paga mais do que mudar o modelo.

2. Problemas que os prompts sozinhos não resolvem estão se acumulando. "Ferramentas demais, o modelo escolhe a errada." "O contexto está tão lotado que o sinal importante fica enterrado." "Em tarefas longas, o agente perde o fio da meada no meio do caminho." Estes não são problemas que você resolve com uma redação mais esperta em um único turno — são problemas de design.

3. O gargalo dos agentes de IA em produção migrou para o harness. 2024 foi a corrida para tornar os LLMs mais inteligentes. De 2025 a 2026, a corrida é para tornar os harnesses mais inteligentes. Todo grande produto — Claude Code da Anthropic, Codex da OpenAI, Cursor, Devin — está competindo em harness engineering.

5. Um checklist prático de design de harness

7 pontos de verificação para um bom harness

1. DESIGN DE FERRAMENTAS

Verbos para nomes de ferramentas, argumentos explícitos

Erros voltam como mensagens estruturadas que dizem "faça isso em seguida".

2. CONTEXTO

Injete só o que é relevante, dinamicamente

Prompt cache mais RAG: o suficiente para ler, nunca o suficiente para engasgar.

3. MEMÓRIA

Uma única fonte de verdade para a memória persistente

Mantenha CLAUDE.md / AGENTS.md curtos, jogue os detalhes no SPEC.md.

4. LOOP

Deixe explícitas as condições de término

Sempre defina máximo de iterações, máximo de tokens e um timeout.

5. SEGURANÇA

Operações destrutivas exigem aprovação prévia

Hooks bloqueiam automaticamente; o sandbox limita o raio de impacto.

6. OBSERVABILIDADE

Registre todas as chamadas de ferramentas

Rastreabilidade para reconstruir o que aconteceu depois do fato.

7. CUSTO

Projete pensando na economia de tokens

Caching, APIs em batch, sub-agents — tudo mantém o custo mensal sob controle.

6. Comparando os principais harnesses

Tendências de design dos principais harnesses de agentes de IA

Claude Code

Anthropic

Pontos fortes

Hooks ricos / sub-agents / Plan mode / slash commands.

Memória

CLAUDE.md em nível de usuário e de projeto.

Cenário ideal

Codificação complexa, tarefas de longa duração

Cursor

Anysphere

Pontos fortes

Integração com IDE, seleção de contexto via @-mention.

Memória

.cursor/rules/*.mdc aplicado via padrões glob.

Cenário ideal

Edições interativas de código, feedback instantâneo

Codex CLI

OpenAI

Pontos fortes

Modo de aprovação alternável, sandbox forçado.

Memória

AGENTS.md (modelos da classe GPT-5 toleram arquivos mais longos).

Cenário ideal

Fluxos de CLI, integração com pipeline de código

Devin

Cognition

Pontos fortes

Agente totalmente autônomo com integração de browser, IDE e shell.

Memória

Memória persistente proprietária mais um recurso de Knowledge.

Cenário ideal

Tarefas para "delegar e esquecer", entrega ponta a ponta

Cada um destes harnesses roda sobre mais ou menos os mesmos LLMs (Claude / GPT / Gemini), e ainda assim seus pontos fortes divergem fortemente por causa de filosofias distintas de design de harness. "Qual harness?" importa mais que "qual LLM?" — esse é o verdadeiro campo de batalha da era dos agentes.

7. Antipadrões

1. Adicionar ferramentas demais

Quando você passa de cerca de 20 ferramentas, a chance de o LLM escolher a errada dispara. Seja implacável em manter só as ferramentas que você de fato precisa, e funda as semelhantes.

2. Empurrar tudo para dentro do contexto

"É só mostrar tudo, por garantia" é contraproducente. Passe as coisas por um filtro de relevância e inclua apenas o necessário. O contexto é um dispositivo para fazer emergir o sinal importante — não um depósito.

3. Implementar segurança só com prompts

"Por favor, não execute operações perigosas" cedo ou tarde acaba sendo ignorado, dependendo da situação. A resposta certa é torná-lo fisicamente impossível no nível do ambiente — sandbox, Hooks, limites de permissão.

Resumo

Harness engineering é o ofício de projetar a camada "do lado de fora" do LLM. Prompt engineering é apenas um componente dentro do harness. Tratar deliberadamente os seis elementos — definição de ferramentas, gestão de contexto, memória, loop, guardrails, UX de saída — pode transformar o desempenho no mundo real a partir do mesmo LLM subjacente.

Em 2026, o principal campo de batalha dos agentes de IA em produção claramente migrou para o harness. Construir "harnesses inteligentes" — não apenas escrever "prompts inteligentes" — será o diferencial para a próxima geração de engenheiros.

FAQ

Q1. Então não precisamos mais de prompt engineering?

Errado. Continua essencial — como um componente dentro do harness. Descrições de ferramentas, system prompts, mensagens de erro — tudo isso é superfície de design de prompt. O que ficou ultrapassado é a mentalidade de "vou consertar isso com um prompt melhor".

Q2. Qual o primeiro passo para aprender harness engineering?

Pegue o Claude Code ou o Cursor e não apenas use — mude o comportamento ajustando a configuração. Escreva um CLAUDE.md / .cursor/rules. Experimente Hooks. Construa um slash command. Essa é a experiência prática do que um harness realmente é.

Q3. Harnesses são o mesmo que frameworks como o LangChain?

Próximos, mas não a mesma coisa. Um framework é um kit de ferramentas de implementação; um harness é uma disciplina e mentalidade de design. LangChain, LlamaIndex, o Claude Agent SDK e afins são ferramentas para construir harnesses.

Q4. Construir o próprio harness ou usar um existente?

Para a maioria dos casos, um harness existente (Claude Code, Cursor, etc.) mais customização é suficiente. Construir um do zero só faz sentido para requisitos corporativos, domínios de nicho ou otimização extrema de custo.

Q5. "Harness engineer" vai virar um cargo de verdade?

Os sinais já estão aí. Anthropic, OpenAI, Cursor e outras empresas que constroem agentes começaram a contratar para funções como "Agent Engineer", "Tool Designer" e "Context Engineer". Em 2027 ou 2028, é provável que se consolide como uma categoria profissional distinta.

O que é Harness Engineering? Projetando a camada ao redor do LLM na era dos agentes de IA

Um Harness = as 4 camadas que envolvem o LLM

1. O que é Harness Engineering?

2. Harness Engineering vs Prompt Engineering

3. Os 6 componentes de um harness

1. Tool Use (uso de ferramentas)

2. Gestão de contexto

3. Sistema de memória

4. Agent loop

5. Guardrails

6. UX de saída

4. Por que Harness Engineering, e por que agora?

5. Um checklist prático de design de harness

7 pontos de verificação para um bom harness

6. Comparando os principais harnesses

Tendências de design dos principais harnesses de agentes de IA

7. Antipadrões

1. Adicionar ferramentas demais

2. Empurrar tudo para dentro do contexto

3. Implementar segurança só com prompts

Resumo

FAQ

Q1. Então não precisamos mais de prompt engineering?

Q2. Qual o primeiro passo para aprender harness engineering?

Q3. Harnesses são o mesmo que frameworks como o LangChain?

Q4. Construir o próprio harness ou usar um existente?

Q5. "Harness engineer" vai virar um cargo de verdade?

Artigos relacionados

Os 3 modos do Claude: Chat, Cowork e Code — Comparação completa e dicas de uso

O que é o Claude Agent SDK? Guia completo para criar agentes de IA

Datas de corte de conhecimento das principais IAs generativas [2026] ChatGPT, Claude, Gemini e mais

Claude vs ChatGPT: Comparativo de preços [2026] — Planos gratuitos, assinaturas e custos de API

Comentários

Deixe um comentário