Sumário
- 1. O que é um sistema multiagente?
- 2. Por que orquestrar várias IAs em primeiro lugar?
- 3. Cinco padrões centrais de arquitetura
- 4. Os principais frameworks comparados
- 5. O que está realmente rodando em produção
- 6. Custo e trade-offs — a realidade dos 15x em tokens
- 7. Quando usar e quando não usar
- 8. Boas práticas de design
- Resumo
- FAQ
Em 2026, a conversa sobre agentes de IA mudou de "um superagente que faz tudo" para "uma equipe de agentes com papéis diferentes". O recurso Research da Anthropic, os subagentes do Claude Code, o time de engenharia do Devin, os workers paralelos do Cursor — todos eles são construídos sobre uma arquitetura que coordena várias IAs.
Este artigo parte da definição de o que é, de fato, um sistema multiagente, e em seguida percorre os principais padrões de arquitetura, uma comparação de frameworks de produção, exemplos do mundo real, a estrutura de custos e, por fim, quando você deve usá-lo e quando não deve — tudo embasado nas fontes mais recentes. Abandone a fantasia de que "basta ir multi para ficar mais inteligente" e leve consigo uma base real para decisões de design.
Multiagente = uma equipe de especialistas rodando em paralelo
— em vez de pedir que uma IA faça tudo, uma pequena equipe de especialistas divide o trabalho
Cada um roda com sua própria janela de contexto, em paralelo.
O orquestrador agrega os resultados e devolve a resposta — esta é a forma mais amplamente adotada hoje.
1. O que é um sistema multiagente?
Um sistema multiagente (MAS) é uma arquitetura na qual vários agentes de IA cooperam para resolver uma única tarefa. Cada agente tem seu próprio prompt, ferramentas e contexto, e eles trocam mensagens e resultados para atingir um objetivo compartilhado.
O ponto de partida "agente único" — abordado em nosso artigo sobre agente de IA — é uma entidade rodando o ciclo "perceber → raciocinar → agir → observar" por conta própria. A maneira mais clara de pensar em um sistema multiagente é: pegue isso e adicione especialização de papéis e paralelismo.
Como difere de um agente único
| Dimensão | Agente único | Multiagente |
|---|---|---|
| Estrutura | Uma IA roda o ciclo | Várias IAs colaboram |
| Contexto | Tudo amontoado em uma única janela | Separado por papel (evita contaminação) |
| Paralelismo | Essencialmente sequencial | Subagentes podem rodar em paralelo |
| Especialização | Um generalista cuida de tudo | Otimizado por papel (uma equipe de especialistas) |
| Depuração | Simples, fácil de rastrear | Complexa; também é preciso acompanhar o tráfego entre agentes |
| Custo | Baixo (uma sessão) | Alto (tipicamente 2x a 15x em tokens) |
| Latência | Rápida | Mais lenta (overhead de coordenação) |
| Ponto ideal | Tarefas claras e sequenciais | Tarefas que exigem exploração, pesquisa paralela ou divisão especializada de trabalho |
2. Por que orquestrar várias IAs em primeiro lugar?
A posição inicial é "se um agente consegue fazer tudo, deixe assim". Multiagente se torna necessário por causa de três muros estruturais que um agente único tem dificuldade de transpor.
Três muros que um agente único não consegue romper
Multiagente atravessa esses muros com um kit de três peças: "isolamento de contexto × paralelização × especialização de papéis". O recurso Research da Anthropic é o exemplo canônico — um pesquisador líder planeja o trabalho, vários subagentes investigam ângulos diferentes em paralelo e os resultados são agregados. A Anthropic relata que isso entregou cerca de 90% de melhoria de qualidade em relação à versão de agente único.
3. Cinco padrões centrais de arquitetura
Os designs multiagente vêm em um punhado de "formas". Os nomes diferem por framework, mas, em essência, convergem para estes cinco padrões.
3-1. Orquestrador-worker (o mais comum)
Um "maestro (orquestrador / agente líder)" decompõe a tarefa e despacha as partes para vários "workers (subagentes)" em paralelo. Cada worker roda em seu próprio contexto e devolve o resultado ao orquestrador, que os agrega no resultado final.
Usado por: Anthropic Research, subagentes do Claude Code, a configuração canônica no OpenAI Agents SDK.
3-2. Handoff (a linhagem do OpenAI Swarm)
Os agentes passam o controle explicitamente uns aos outros com "agora é com você". O histórico da conversa e o contexto vão de mão em mão. Estruturalmente parecido com um chamado sendo repassado entre responsáveis, isso se encaixa em cenários como o fluxo de escalonamento de uma central de suporte.
Usado por: OpenAI Agents SDK (o sucessor do antigo Swarm).
3-3. Hierárquico (equipes de equipes)
Uma estrutura em árvore: abaixo do orquestrador fica uma camada adicional de agentes "gerentes intermediários" e, abaixo deles, um grupo de workers. Aparece em sistemas grandes — relata-se que o Devin da Cognition usa esse padrão. Custo e latência crescem com a profundidade, então duas ou três camadas é o teto realista.
3-4. Par a par (debate e consenso)
Sem orquestrador algum — vários agentes argumentam como iguais e iteram até chegar a um consenso. Estudado como Multi-Agent Debate, é relatado como capaz de melhorar a factualidade e a robustez do raciocínio. A implementação não é trivial, então a adoção prática ainda é estreita.
3-5. Pipeline (a forma de workflow)
Cada agente roda em uma sequência fixa como "pesquisar → estruturar → verificar → emitir". Este é o terreno do LangGraph com seu modelo baseado em grafos. Sacrifica a tomada de decisão dinâmica, mas recompensa com reprodutibilidade e depuração mais fácil — e é frequentemente a forma mais estável em produção.
Os cinco padrões em uma única vista
4. Os principais frameworks comparados
Em 2026, o desenvolvimento multiagente se consolidou em torno de quatro frameworks (a longa cauda de pequenos frameworks ficou rarefeita).
| Framework | Fornecedor | Padrão de melhor encaixe | Destaques |
|---|---|---|---|
| Claude Agent SDK | Anthropic | Orquestrador/worker | Subagentes + Hooks + integração MCP. O Claude Code é construído sobre ele. |
| OpenAI Agents SDK | OpenAI | Handoff | Lançado em março de 2025 como sucessor do Swarm. Construído em torno da transferência de controle entre agentes. |
| LangGraph | LangChain | Pipeline / máquina de estados | Baseado em grafos; expressa ramificações e loops complexos. Forte em depurabilidade. |
| Strands Agents | AWS | Orquestrador/worker | Pronto para produção com integração ao Bedrock. Recursos corporativos ricos (logs de auditoria etc.). |
| CrewAI | OSS independente | Equipes baseadas em papéis | Composto por agentes com "cargos". Bom para aprendizado e PoCs; implantações em produção são limitadas. |
| AutoGen | Microsoft Research | Par a par / debate | Originou-se como um projeto de pesquisa. Inclinação acadêmica; uso em produção é minoria. |
Em produção, Claude Agent SDK, OpenAI Agents SDK, LangGraph e Strands são os quatro grandes. CrewAI e AutoGen são bons para aprendizado e PoCs, mas as implantações corporativas em produção concentram-se nos quatro primeiros.
5. O que está realmente rodando em produção
Anthropic Research (dentro do Claude.ai)
O recurso de pesquisa do Claude.ai é um orquestrador-worker de manual. O pesquisador líder divide a pergunta do usuário em partes, vários subagentes investigam ângulos diferentes em paralelo (informações da empresa, linhas do tempo, detalhes técnicos etc.) e os resultados são agregados em um relatório. A Anthropic publicou os detalhes em seu blog de engenharia e relata cerca de 90% de melhoria de precisão em relação à versão de agente único.
Subagentes do Claude Code
No Claude Code, você pode entregar tarefas longas para subagentes com papéis diferentes. Exemplo: o Claude principal traça o plano, um subagente de pesquisa lê vários arquivos em paralelo e um subagente de implementação escreve o patch. Cada subagente tem sua própria janela de contexto, então não congestiona o contexto principal.
Devin (Cognition)
O engenheiro autônomo Devin, da Cognition, supostamente usa uma estrutura multiagente hierárquica. Abaixo de um agente pai no estilo gerente de projeto, equipes especialistas rodam em paralelo por domínio. Essa profundidade é o que se exige para conduzir PRs complexos e trabalho de migração de ponta a ponta.
Workers paralelos do Cursor
Uma atualização recente do Cursor reforçou sua capacidade de dividir alterações que abrangem vários arquivos entre subagentes paralelos. Em vez de um agente lidar com os arquivos em sequência, agentes separados trabalham lado a lado em áreas diferentes.
6. Custo e trade-offs — a realidade dos 15x em tokens
Antes de comprar a ideia de que "multi significa inteligente", você precisa entender a estrutura de custos. O próprio relatório da Anthropic afirma que um sistema multiagente queima cerca de 15x mais tokens do que uma sessão de chat padrão.
Prepare-se para um aumento de custo de 2x a 15x com multiagente
— consistente em medições oficiais e de terceiros
Medições típicas de MAS: 2x a 5x
→ varia conforme paralelismo e quantidade de subagentes
Conduzida por overhead de coordenação e mensageria
O tempo total de relógio ainda pode cair graças ao paralelismo
Filas, instâncias redundantes, logs
O esforço de depuração também sobe na prática
Segundo levantamentos do setor, ~70% das cargas de IA conseguem atingir 90 a 95% da qualidade do multiagente a 30 a 40% do custo com um agente único. "Basta ir multi" está economicamente errado.
Multiagente só se justifica para "tarefas em que o valor do resultado vale o custo". Tomando emprestada a formulação da Anthropic: o caso de uso pretendido é "tarefas complexas de pesquisa em que o valor do resultado é alto em relação ao custo".
7. Quando usar e quando não usar
Casos que pedem multiagente
- Pesquisa paralela: "investigue dez sites simultaneamente e relate", "consulte várias APIs em paralelo e mescle" — qualquer coisa em que o paralelismo crie valor direto
- Tarefas autônomas de longa duração: cargas que excedem a janela de contexto de uma única sessão. Sem separação de papéis, a contaminação de contexto destrói a precisão
- Especialização heterogênea: quando um único agente "escreve código" e "revisa código", seu olhar crítico embota. Separar os papéis eleva a qualidade diretamente
- Tarefas pontuais com alto valor de negócio: relatórios de auditoria, análises estratégicas, investigações técnicas complexas — saídas que justificam o custo
Casos em que você não deveria
- Tarefas claras e sequenciais: "corrija este código", "resuma este documento" — trabalho que um agente único conclui normalmente
- Serviços sensíveis a latência: primeiras respostas de chatbot, atendimento ao cliente — qualquer cenário em que a reação ágil é o requisito
- Jobs em lote sensíveis a custo: trabalho repetitivo de alto volume. Ir multi multiplica o custo unitário pelo multiplicador e a conta desaba
- Equipes com pouca capacidade de depuração e operações: a complexidade cresce exponencialmente com multiagente. Se sua equipe não consegue sustentar isso, comece com único
O mantra do setor é "Comece com um agente, adicione mais somente quando tiver um motivo claro". Esse é o consenso entre engenheiros de produção em 2026.
8. Boas práticas de design
Uma vez decidido que multiagente é a escolha certa, eis os pontos em que os designers tropeçam — destilados principalmente do material publicado pela Anthropic.
1. Entregue aos subagentes "propósito, formato de saída, ferramentas e limites" explícitos
A maioria das falhas de subagentes assume a forma de "instruções vagas o levaram a invadir outra tarefa" ou "as saídas não compartilhavam um formato e não puderam ser agregadas". A orientação da Anthropic: dê a cada subagente (1) um propósito claro, (2) o formato de saída esperado, (3) as ferramentas e fontes de informação que pode usar e (4) os limites de sua tarefa.
2. Torne o "nível de esforço" explícito
Subagentes são ruins em decidir "até onde aprofundar" por conta própria. Coloque o nível de esforço no prompt — "investigação de um salto", "verificação exaustiva", "inferir apenas a partir de informações conhecidas". O xhigh e os task budgets (beta) do Claude Opus 4.7 são exatamente a resposta oficial a esse problema.
3. Dê ao orquestrador o trabalho de "agregação e resolução de conflitos"
Resultados de subagentes podem se contradizer (por exemplo, relatando o mesmo fato sob ângulos diferentes). Metade do trabalho do orquestrador é "resolver as contradições e consolidá-las em uma única resposta coerente". Economize na lógica de agregação e os ganhos de ir multi desaparecem.
4. Construa observabilidade primeiro
Sistemas multiagente colapsam no momento em que você não consegue dizer o que está acontecendo. Registre entradas/saídas, tempo de execução, consumo de tokens e chamadas de ferramentas de cada subagente desde o primeiro dia. LangGraph e Strands são projetados com observabilidade em mente, e essa é uma das razões pelas quais vencem em produção.
5. Comece único, depois divida apenas nos gargalos
Não desenhe multi desde o início. Coloque para funcionar como um agente único primeiro e, em seguida, recorte um subagente apenas nos pontos que você identificou claramente como muros. A mesma mentalidade de refatorar — basta isso.
Resumo
- Multiagente é uma arquitetura em que "várias IAs trabalham em paralelo com papéis divididos". Ela atravessa os três muros do agente único: contaminação de contexto, ausência de paralelismo e confusão de papéis
- Os padrões centrais são cinco: orquestrador-worker, handoff, hierárquico, par a par e pipeline. Orquestrador-worker é, de longe, o mais comum
- Os principais frameworks consolidaram-se em quatro grandes: Claude Agent SDK, OpenAI Agents SDK, LangGraph e Strands
- O custo é 2x a 15x. A latência é +30 a 50%. Adotá-lo de forma displicente está economicamente errado
- Regra de decisão: se paralelismo, especialização ou trabalho de longa duração for um requisito firme, vá multi. Caso contrário, único basta
- Regra de design: comece único, divida apenas nos gargalos depois que conseguir vê-los
FAQ
Q1. Multiagente é sempre melhor do que um "agente único mais inteligente"?
Não. O Research da Anthropic viu uma melhoria de precisão de ~90%, mas isso foi dentro de seu ponto ideal de "investigação paralela complexa". Para tarefas claras e sequenciais, um agente único é mais rápido, mais barato e ao menos igualmente bom. Depende da natureza da tarefa.
Q2. Se eu quiser construir um sistema multiagente por conta própria, com qual framework devo começar?
Depende do caso de uso. Usando Claude? Comece com Claude Agent SDK (oficial, com subagentes + Hooks). Centrado em OpenAI? Agents SDK. Precisa expressar lógica de ramificação complexa? LangGraph. Rodando em produção na AWS? Strands. Para aprender, CrewAI é bom para captar os conceitos.
Q3. Dá para migrar de único para multi gradualmente?
Sim, e a maioria dos sistemas de produção faz exatamente isso. Construa o MVP como um agente único e, em seguida, recorte subagentes apenas onde realmente bateu em limites de janela de contexto, problemas de latência ou necessidades de especialização. Projetar tudo como multi desde o início não é recomendado.
Q4. Existe um protocolo de comunicação padrão entre agentes?
Em 2026, o MCP (Model Context Protocol) está se tornando o padrão de fato. Ele se originou na Anthropic e agora é adotado por OpenAI, Microsoft, AWS e outros. É amplamente usado como interface comum tanto entre agentes quanto entre agentes e ferramentas. Há também uma proposta de padronização chamada ACP (Agent Communication Protocol), mas as implementações ainda são poucas.
Q5. Qual é o modo de falha mais comum de multiagente?
(1) Falta de observabilidade (você não consegue dizer o que está acontecendo), (2) Instruções dos subagentes vagas demais para agregar os resultados e (3) Estouro de custo. (3) em particular: um subagente entra em loop, martela a API a noite inteira e a conta de nuvem salta uma ordem de magnitude da noite para o dia — esses acidentes são surpreendentemente comuns. Sempre defina task budgets (tetos de custo e tempo).
Q6. Multiagente é um caminho para a AGI (IA geral)?
Os pesquisadores estão divididos. Um campo argumenta que "especialização de papéis e coordenação são a essência da inteligência"; o outro sustenta que "escalar um único modelo é a essência — multiagente é apenas uma solução paliativa de engenharia". Ambos são plausíveis. Na prática, o enquadramento mais seguro é tratar multiagente como "uma forma de ampliar o leque de tarefas de IA viáveis hoje".
Q7. Existe uma opção intermediária entre único e multi?
Sim. "Agente único + subagentes-como-ferramentas". A ferramenta Task do Claude Agent SDK é exatamente isso — o principal continua sendo um agente único, mas pode subir subagentes descartáveis sob demanda. Sem a complexidade plena de multiagente, ela ultrapassa alguns dos limites do agente único. É popular como meio-termo moderado.