Pular para o conteúdo
Tópicos

Dev IA e Programação

Desenvolva melhor com IA. Guias de geração de código, criação de apps, depuração e automação.

63 artigos

Ordene os artigos para encontrar o que precisa

O que é um embedding (vetor)? Como o significado vira números, usos e como escolher um modelo

O que é um embedding (vetor)? Como o significado vira números, usos e como escolher um modelo

O RAG, a busca semântica e as recomendações dependem todos de um trabalhador invisível: o embedding (vetor). Um embedding é o significado de um texto (ou de uma imagem) convertido em uma sequência de números — um vetor. A palavra "cachorro" vira uma lista de centenas a milhares de números que funcionam como "coordenadas de significado", de modo que palavras próximas em significado ficam perto umas das outras ("cachorro" e "filhote" estão próximos; "cachorro" e "carro" estão distantes), e a proximidade é quantificada com medidas como a cosine similarity. Exemplo famoso: "rei − homem + mulher ≈ rainha". Por causa disso, a máquina consegue julgar se o significado é próximo mesmo quando os caracteres não coincidem. Este guia para iniciantes cobre o que é um embedding (um "mapa de significados"), por que a proximidade mede significado (dimensões e cosine similarity), para que serve (RAG, busca semântica, classificação e remoção de duplicatas, recomendações e multimodal), como escolher um modelo de embedding (tipo API como OpenAI text-embedding-3, Cohere, Gemini, Voyage; open-source como BGE-M3, Nomic, Qwen3; além da Matryoshka, que pode reduzir 3.072 dimensões para 1.024 mantendo cerca de 95% da qualidade por aproximadamente um terço do custo), e os bancos de dados vetoriais (Pinecone, Weaviate, Qdrant, Chroma, pgvector) com um começo em três passos (escolher um modelo, vetorizar e armazenar documentos, vetorizar a pergunta e buscar). Os embeddings são a base da implementação de RAG.

O que são AI Evals (e LLM-as-Judge)? Como funcionam, vieses e ferramentas — Guia para iniciantes

O que são AI Evals (e LLM-as-Judge)? Como funcionam, vieses e ferramentas — Guia para iniciantes

Você refinou seus prompts, adicionou conhecimento com RAG e talvez tenha feito fine-tuning — então, como confirmar que realmente melhorou? As AI evals entram em cena, e em 2026 a avaliação é tão essencial que a chamam de "infraestrutura". AI evals significam medir sistematicamente a qualidade da saída de um LLM (precisão, alucinações, aderência ao formato, tom) com uma régua fixa, em vez de no feeling; sem elas, melhorar é só um palpite. Há dois métodos: avaliação baseada em código para itens mecanicamente mensuráveis (correspondência exata, formato, palavras obrigatórias/proibidas — rápida, barata, estável) e LLM-as-judge para os subjetivos (usando um LLM potente como árbitro para pontuar saídas, via comparação pairwise ou pontuação de saída única). O princípio: meça com código tudo o que o código puder medir. O LLM-as-judge tem vieses de verbosidade, posição e autopreferência; as correções são usar uma família de modelo diferente como corretor, inverter a ordem e corrigir duas vezes, incluir a concisão na rubrica e calibrar contra o julgamento humano. Escalas grosseiras (pass/fail ou 1–3) superam as finas de 1–10. Na prática, rode três camadas — verificações de código instantâneas a cada mudança, testes de regressão noturnos com LLM-as-judge e monitoramento contínuo em produção — com ferramentas como DeepEval, Promptfoo e RAGAS para CI, mais Braintrust, LangSmith e Arize para monitoramento. Comece reunindo 10 boas e 10 más saídas e pontuando-as.

O que é fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA e quando usar — Guia para iniciantes

O que é fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA e quando usar — Guia para iniciantes

Quando você quer personalizar a IA para a sua própria empresa, o fine-tuning é uma das opções — mas mergulhar nisso sem cuidado sai caro e é fácil errar. Este guia para iniciantes explica o fine-tuning: pegar um modelo base já treinado, treiná-lo ainda mais com dados adaptados ao seu uso e remodelá-lo em um modelo especializado que incorpora "comportamento" (estilo da casa, formato de saída, vocabulário da área) no próprio modelo ao reescrever os seus pesos. O fine-tuning é bom em mudar comportamento, mas ruim em memorizar conhecimento atualizado, então a regra é "fatos e conhecimento → RAG, personalidade e molde → fine-tuning, prompts primeiro". Como notam os especialistas, cerca de 80% dos casos de "precisamos de fine-tuning" são resolvidos com melhor recuperação (RAG) ou prompting, então a ordem importa. O artigo cobre o que é fine-tuning (uma analogia com o treinamento de um novo funcionário), no que ele é bom e ruim, uma tabela comparativa de fine-tuning vs RAG vs prompting, os principais métodos (full fine-tuning, LoRA e QLoRA — quantização de 4-bit leve o suficiente para iniciantes), o que você precisa (mais de 500 exemplos de alta qualidade como referência, com a construção dos dados sendo o trabalho de verdade; custos de $5,000 a mais de $50,000, fine-tuning da OpenAI a cerca de $25–$100 por milhão de tokens de treinamento; ferramentas como OpenAI, Unsloth, Axolotl e Hugging Face) e em que ordem começar. O fine-tuning é o último recurso.

O que é Spec-Driven Development (SDD)? Os quatro passos, as ferramentas e a diferença para o vibe coding

O que é Spec-Driven Development (SDD)? Os quatro passos, as ferramentas e a diferença para o vibe coding

Numa era em que a IA escreve o código, a habilidade de maior valor está migrando de "escrever código" para "escrever a especificação" — e a prática que captura isso é o spec-driven development (SDD). O SDD coloca a especificação no centro do projeto como fonte da verdade, e um agente de IA deriva dela o design, a divisão em tarefas e a implementação, em vez de codificar imediatamente. O ponto-chave é que cada passo deixa um documento (muitas vezes em Markdown) que o passo seguinte lê. Este guia para iniciantes cobre o que é o SDD (a especificação é canônica; o código é um derivado), por que importa agora (previne o "muro dos três meses" de dívida técnica e desvio de requisitos do vibe coding já na fase de design — o GitHub relata cerca de uma ordem de magnitude menos ciclos de "regerar do zero"), os quatro passos básicos (Specify → Plan → Tasks → Implement), as principais ferramentas (GitHub Spec Kit, com mais de 90.000 estrelas e mais de 30 agentes suportados, AWS Kiro, com o fluxo Requirements → Design → Tasks e o roteador Auto, além de BMAD, OpenSpec, Tessl, Google Antigravity e Cursor), quando usá-lo em vez do vibe coding (um híbrido: vibe para explorar, spec-driven para entregar, com revisão humana obrigatória) e como experimentar hoje mesmo. Na era da IA, quem se destaca são os que conseguem definir com precisão o que construir, não os que escrevem código mais rápido.

O que é engenharia de contexto? A próxima habilidade depois dos prompts e como vencer o "context rot"

O que é engenharia de contexto? A próxima habilidade depois dos prompts e como vencer o "context rot"

O centro de gravidade de quem trabalha com IA está mudando da engenharia de prompts para a engenharia de contexto. Tomando emprestada a definição da Anthropic, engenharia de contexto é "o conjunto de estratégias para curar e manter o conjunto ótimo de tokens (informação) que você entrega ao modelo durante a inferência" — abrangendo não apenas o prompt, mas tudo o que entra na janela de contexto: o system prompt, as ferramentas, o histórico da conversa e os dados externos. Ela importa por causa do "context rot": quanto mais tokens você adiciona, mais a precisão na verdade cai. O estudo da Chroma em 2025 testou 18 modelos de ponta (GPT, Claude, Gemini e outros) e todos degradaram à medida que a entrada crescia, com a informação no meio de contextos longos especialmente fácil de ignorar ("lost in the middle"). Este guia para iniciantes cobre o que é engenharia de contexto e como ela se relaciona com a engenharia de prompts, por que o context rot acontece (a atenção é um orçamento finito), o que realmente vive no contexto, seis técnicas essenciais (instruções na altitude certa, seleção de ferramentas, recuperação just-in-time, compactação/compressão por resumo, notas de memória externa e isolamento com subagentes), a relação com RAG e Claude Skills, e hábitos que você pode usar hoje, como iniciar uma nova sessão quando o assunto muda e colar apenas os pontos-chave. A ideia central: manter apenas os tokens mínimos e de maior sinal.

Claude Fable 5 para programação: benchmarks, quando usá-lo vs. Opus 4.8 e a realidade do custo

Claude Fable 5 para programação: benchmarks, quando usá-lo vs. Opus 4.8 e a realidade do custo

O Claude Fable 5, lançado em 9 de junho de 2026 como o primeiro modelo classe Mythos da Anthropic disponível publicamente, é examinado aqui apenas para programação (o lançamento completo é coberto à parte). Em resumo: o Fable 5 se distancia quanto mais difícil fica a programação. Ele alcança 95.0% no SWE-bench Verified e 80.3% no mais exigente SWE-bench Pro (vs. Opus 4.8 69.2% e GPT-5.5 58.6%), e 29.3% no mais difícil FrontierCode Diamond (vs. Opus 13.4% e GPT-5.5 5.7%, ~5x o GPT), enquanto o Terminal-Bench 2.1 é uma disputa acirrada em 84.3% (o GPT-5.5 se mantém competitivo via Codex CLI). O artigo traz um resumo de três pontos para o desenvolvedor (mais forte em problemas difíceis / conclui em menos turnos / mas é caro e não para), uma tabela de benchmark lado a lado e como lê-la (quanto mais difícil o benchmark, maior a diferença; trabalho de terminal é acirrado), a propriedade de escala com effort (de low 11.5% a max 30.9%, enquanto o GPT-5.5 estabiliza em 5-6%; quanto mais longa e complexa a tarefa, maior a vantagem; cinco agentes em paralelo teriam atingido 60% de aprovação em testes ocultos 3.2x mais rápido que um único agente), no que ele é realmente bom (grandes refatorações multiarquivo, longas execuções autônomas de agentes, front-end a partir de screenshot, design de API mais testes mais documentação; Simon Willison avaliou o resultado como dias de trabalho, chamando-o de lento e caro com mais de $110 em 5,5 horas), fraquezas (~2x o preço do Opus 4.8 a $10/$50, sessões complexas de 500k-1M tokens, erra a hora de parar e continua rodando, precisão de revisão atrás do Opus, classificadores de segurança fazem fallback para o Opus 4.8 em cerca de 20% das tentativas do Terminal-Bench, e tendência a relatar testado sem executar), orientação de roteamento (Opus 4.8 por padrão, escalar os 10-20% mais difíceis para o Fable 5, trabalho de terminal para o GPT-5.5, alternável por model ID) e onde usar (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) com preços, contexto de 1M token, 128k de saída máxima e a janela gratuita de 9-22 de junho. Fable 5 para o trabalho pesado pontual, Opus 4.8 para a maior parte da rotina diária. Os números são citados de relatórios da Anthropic e de terceiros e são indicativos de tendência, dependentes do scaffold.

O que é o comando /loop do Claude Code? Uso, polling e agendamento comparados

O que é o comando /loop do Claude Code? Uso, polling e agendamento comparados

"Me avise quando o build terminar." "Se o CI ficar vermelho, conserte." "Fique de olho no deploy a cada 5 minutos." Delegar essas tarefas que prendem você à tela inteiramente à IA é o que o comando /loop, adicionado ao Claude Code em 2026, torna possível. Este guia para iniciantes explica que o /loop é um agendador com escopo de sessão que executa um prompt ou slash command repetidamente em um intervalo que você define (ou que a IA define), e depois aborda as quatro formas de usar (① /loop 5m X = intervalo fixo de cron ② /loop X = self-pacing em que a IA julga o intervalo ③ /loop 15m = o prompt de manutenção embutido ④ /loop = manutenção automática), como escrever intervalos (número + unidade s/m/h/d, mínimo de 1 minuto, linguagem natural como "every 2 hours", e você pode colocar um slash command em loop: /loop 20m /review-pr 1234), o poder do self-pacing (esperas mais curtas quando há atividade, mais longas quando está calmo, entre 1 minuto e 1 hora, e — ao contrário do cron puro — ele encerra o loop automaticamente assim que julga a tarefa concluída), receitas práticas (vigiar CI/deploy, cuidar de PR, acompanhar builds longos, lembretes, manutenção automática de branch), como pará-lo e os cuidados (Esc para parar, escopo de sessão então uma nova conversa o apaga, fechar o terminal o interrompe, intervalos fixos duram até 7 dias, máximo de 50 tarefas por sessão, dispara entre as voltas com jitter, fuso horário local), como escolher entre três recursos de agendamento (/loop para monitoramento na sessão, Desktop scheduled tasks para trabalho local residente, Routines para operações na nuvem sem supervisão), e a personalização via loop.md mais a desativação via CLAUDE_CODE_DISABLE_CRON=1 — tudo baseado na documentação oficial (em 2026). O que o /loop muda é o eixo do tempo do trabalho que você pode delegar à IA.

Como se Tornar um Engenheiro de IA de Ponta (Desenvolvedor AI-Native): Habilidades e Roadmap

Como se Tornar um Engenheiro de IA de Ponta (Desenvolvedor AI-Native): Habilidades e Roadmap

Você vai ficar do lado de quem tem o trabalho tomado pela IA ou do lado de quem usa a IA para fazer o trabalho de dez pessoas? Em 2026, essa é a bifurcação para os engenheiros. Este artigo enquadra tornar-se um "desenvolvedor AI-native" (construir apps com LLMs, agentes, RAG — distinto de pesquisar modelos) como uma pilha de habilidades construível, não um doutorado, em três camadas: ① a base que não muda (Python como principal linguagem do desenvolvimento de IA, Git, linha de comando, HTTP/REST/JSON — você ainda precisa do básico na era do código escrito por IA); ② as 5 habilidades centrais AI-native (design de prompt/contexto, RAG como espinha dorsal dos agentes corporativos, construção de agentes, MCP como padrão de fato de conexão de ferramentas e design de evals — mais otimização de custos, guardrails, observabilidade); ③ o diferencial que a maioria não percebe — design de evals e engenharia de contexto (saber escrever evals é o maior sinal de "realmente construiu com LLMs", e um AGENTS.md/CLAUDE.md mais um pequeno conjunto de evals é o salto de "assistido" para "native"). Acrescenta um roadmap de 8–12 meses (base → API de LLM/prompting → construir RAG sem frameworks → agentes + MCP → evals + deploy + publicação), uma estratégia de portfólio em que o trabalho em produção supera o diploma, armadilhas (pântano de tutoriais, acúmulo de ferramentas, negligenciar o básico) e números de mercado/demanda (baseados nos EUA, grande variação regional). A fronteira é se você usa a IA como um sistema.

Guia Completo de Otimização de Custo na Codificação com IA: Corte sua Conta em 70–85%

Guia Completo de Otimização de Custo na Codificação com IA: Corte sua Conta em 70–85%

"A conta da API do mês passado… US$ 1.800?" Em 2026, usar o Claude Code a sério como agente já foi relatado atingindo US$ 500–2.000 por mês. Mas só mudando a forma de uso, dá para cortar o custo em 70–85% sem reduzir a qualidade da saída (vários relatos do mundo real convergem aqui). Este guia primeiro desvenda a verdadeira face do custo alto (modelo caro, contexto longo, chamadas desperdiçadas; como funciona a cobrança por token; agentes consumindo cerca de 7x uma única sessão), depois o ponto de equilíbrio assinatura vs. API (a API ganha aproximadamente só abaixo de 50 sessões por mês; uma estimativa coloca as assinaturas em até 36x mais baratas para uso diário), uma visão geral de preços (Copilot Pro US$ 10 / Cursor Pro US$ 20, US$ 60–100 quando intenso / Claude Pro US$ 20, Max US$ 100; o Copilot migrou para AI Credits por uso em 1 de junho de 2026), seis alavancas para cortar custo (① roteamento de modelo para 40–70% off ② cache de prompt em cerca de 90% off com taxa de acerto de 60–80% ③ gestão de contexto ④ escolher assinatura vs. API ⑤ auditar assinaturas duplicadas ⑥ recursos de memória), um checklist de economia que você pode aplicar hoje e as armadilhas — falsa economia, custo oculto de mão de obra, cobrança duplicada, choque do medidor, confiar demais no cache — além de configurações recomendadas por perfil. Otimizar não é ser pão-duro; é projetar para pagar a quantia certa pela coisa certa.

Guia de Implementação de Vector DB / RAG — Do RAG Ingênuo à Produção

Guia de Implementação de Vector DB / RAG — Do RAG Ingênuo à Produção

Você sabe "o que é RAG", mas, ao construir um, a resposta sai errada — porque ainda é RAG ingênuo: picar de qualquer jeito e fazer uma busca vetorial simples. Como o complemento de implementação ao artigo 030, este texto explica o pipeline de RAG prático de 2026 (chunking inteligente, embedding, vector DB, busca híbrida, reranking) etapa por etapa: estratégias de chunking (recursive 512 como padrão, semantic/structural/parent-child, Contextual Retrieval reduzindo falhas de retrieval em até 67%), a escolha de um modelo de embedding (text-embedding-3-large, etc.), uma comparação de seis vector DBs (Chroma para prototipagem, pgvector com Postgres, Qdrant de baixa latência, Pinecone totalmente gerenciado, o campeão de híbrida Weaviate, Milvus para grande escala), busca híbrida fundindo BM25 + vetores densos com RRF, retrieve-then-rerank com um bi-encoder e depois um cross-encoder (Cohere/Voyage/BGE/Jina), a divisão entre LlamaIndex (retrieval) e LangChain/LangGraph (controle), por que uma janela de 1M de tokens não substitui o RAG (lost in the middle, distração) e cuidados na produção, como construir um conjunto de avaliação primeiro.

Como Construir um Agente de IA — Guia para Iniciantes (No-Code e Código)

Como Construir um Agente de IA — Guia para Iniciantes (No-Code e Código)

Você já sabe "o que é um agente de IA" — então, como construir um? Em 2026, o no-code permite colocar um agente funcional para rodar em uma tarde, arrastando e soltando, e os SDKs modernos deixam você montar um agente prático em menos de 100 linhas. Como complemento prático de "o que é um agente de IA", este artigo cobre a anatomia (cérebro LLM + instruções + ferramentas + memória + laço autônomo), os dois caminhos (no-code vs código), o framework universal de construção em 5 passos (delimitar o problema, escolher a base, escrever as instruções, conectar as ferramentas, testar em pequena escala), uma comparação de ferramentas no-code (Dify para uma plataforma completa, n8n para integração de negócios, Flowise para prototipagem e os mais fáceis Custom GPT/Gemini Gems/Claude Projects), uma comparação de frameworks de código (Claude Agent SDK/OpenAI Agents SDK sólidos, LangGraph para controle complexo, CrewAI para coordenação de papéis), um exemplo prático concreto (resumir e-mail de suporte e notificar no Slack), referências de custo (~$10-$50/mês de plataforma mais uso do modelo) e prazo, e armadilhas (não exagerar no escopo, permissões e controle de descontrole, cuidado com o só PoC). Para a maioria das pessoas, construir um primeiro com no-code é a jogada certa.

Erros Comuns do Claude Code e Como Resolver — A Referência Completa

Erros Comuns do Claude Code e Como Resolver — A Referência Completa

O Claude Code para de repente com "faça login novamente", "limite de taxa", "prompt longo demais", "o MCP não conecta" — e pesquisar cada um no Google vira um saco. Esta é uma referência prática que cataloga os erros que você costuma encontrar, com a causa e o comando a rodar para cada um. Começa pelos três comandos de diagnóstico para rodar primeiro (claude doctor para diagnóstico completo, /status para a autenticação ativa, /context para o detalhamento do contexto), depois foca nas quatro famílias mais comuns (uso/limites de taxa, estouro de contexto, autenticação expirada, falhas de conexão do MCP) com tabelas sintoma→causa→comando-de-solução para autenticação e login, uso/limites de taxa (o Claude Code queima de 10 a 100x os tokens do chat), contexto e tokens (prompt longo demais, compactação travando), servidor e modelo (500/529/timeout/model not found), instalação/PATH/atualização, rede e proxy (ECONNREFUSED, TLS), MCP, permissões (deny vence o bypass) e diversos (thinking blocks 400, imagem/PDF, IDE). Termina com um guia rápido erro→solução e um FAQ. Baseado na documentação oficial do Claude Code (em 2026): quando travar, rode os três comandos de diagnóstico, e se não resolver, rode claude update.