O que é uma API de IA? Guia de preços e tokens

O que é uma API de IA? — Guia para iniciantes sobre preços, tokens, escolha de modelo e a diferença para o chat web

Índice

1. ChatGPT custa US$ 20/mês — a API pode custar US$ 2 (ou o oposto)
2. Chat Web vs API — cinco diferenças concretas
3. O que é um token? — a menor unidade de preço
4. Preços das principais APIs — Claude vs GPT vs Gemini
5. Escolhendo um modelo — mapa de quatro tipos de uso
6. Três armadilhas de preço em que todo iniciante cai
7. Sua primeira chamada de API — curl e Python em 5 minutos
Resumo
FAQ

"Estou pagando US$ 20/mês pelo ChatGPT — acessar a API diretamente sairia mais barato?" É uma pergunta que iniciantes em IA fazem com frequência. A resposta curta: às vezes sim, às vezes o oposto. A fronteira depende de "quantas vezes você chama a IA por mês" e "quão longas são suas entradas."

Por exemplo, dez perguntas curtas por dia? A API custa US$ 1–2/mês. Mas analisar um documento de 100 mil tokens diariamente? A conta da API salta para US$ 50–200/mês. A taxa fixa do chat web é segura; para uso leve, a API é drasticamente mais barata — mas erre essa inversão e você terá uma surpresa desagradável na fatura do fim do mês.

Deixo minha opinião logo de início: "desenvolvedores que incorporam IA em seus próprios apps", "pessoas que querem cancelar a assinatura do ChatGPT/Claude e usar IA de forma leve" e "pessoas que querem comparar vários modelos" — esses três padrões claramente se beneficiam da API. Por outro lado, se você "quer manter conversas em uma UI web", "usa geração de imagens ou entrada de voz com frequência" ou "odeia olhar faturas", continuar na assinatura do chat web é a resposta certa. Este artigo cobre as diferenças fundamentais entre chat web e API, como tokens e preços funcionam, os preços de maio de 2026 das principais APIs, como escolher um modelo, as três armadilhas que pegam todos os iniciantes e sua primeira chamada — tudo do ponto de vista de um iniciante.

API DE IA · MAIO 2026

Taxa fixa do chat web vs pagamento por uso da API

— Os mesmos modelos de IA, estruturas de custo e UX completamente diferentes

CHAT WEB

Fixo US$ 20/mês

UI completa, pronto para imagens

Para quem "só quer usar IA"

API

US$ 0,005–US$ 0,05 por chamada

Acesso programático

Para automação / integração em apps

Uso leve (10 chamadas/dia) → API a US$ 1–2/mês.
Uso intenso (entradas de 100 mil tokens diárias) → API a US$ 50–200/mês; a taxa fixa do chat web pode sair mais barata.

1. ChatGPT custa US$ 20/mês — a API pode custar US$ 2 (ou o oposto)

Conta concreta. "Dez perguntas curtas por dia." Cada chamada: 200 tokens de entrada + 200 tokens de saída (aproximadamente 130–160 palavras em inglês). Com o Claude Sonnet 4.6 (entrada US$ 3 / saída US$ 15 por 1 milhão de tokens), uma chamada custa US$ 0,0036, no mês cerca de US$ 1,10. Isso é 1/18 dos US$ 20/mês do ChatGPT Plus.

Agora o oposto. "Analisar um documento de 100 mil tokens diariamente." Claude Opus 4.7 (entrada US$ 5 / saída US$ 25), uma chamada com 100 mil de entrada + 5 mil de saída = US$ 0,625. Trinta chamadas/mês = US$ 18,75; cem = US$ 62,50. O GPT-5.5 da OpenAI dobra o preço da entrada acima de 272 mil tokens, então tarefas de contexto longo saltam ainda mais forte.

Limite aproximado: "abaixo de 200–300 chamadas/mês, a API é mais barata." Usuários intensos (muito tráfego diário, entradas longas) frequentemente se saem melhor com a taxa fixa do chat web. Essa é a tensão fundamental entre "taxa fixa" (chat web) e "pagamento por uso" (API).

2. Chat Web vs API — cinco diferenças concretas

Além do preço, chat web e API diferem fundamentalmente em como você os usa. Cinco pontos:

Eixo	Chat Web (claude.ai / chatgpt.com)	API
Como você chama	Chat no navegador	Requisição HTTP a partir do seu código
Cobrança	Fixa ~US$ 20/mês	Pagamento por token usado
UI	Completa (histórico, anexos, geração de imagens)	Você constrói a sua
Gerenciamento de sessão	Histórico preservado automaticamente	Você reenvia o histórico passado a cada requisição
Recursos	Voz, imagens, Memory, Canvas etc.	Principalmente texto e instruções de texto sobre imagens

O ponto-chave: "a API não lembra o histórico da conversa." No chat web, os turnos anteriores persistem automaticamente; pela API, cada requisição é independente. Se você quer o comportamento "lembrar do turno anterior", precisa reenviar o histórico completo por conta própria, o que gasta tokens rapidamente. Esse é o motivo nº 1 pelo qual novos usuários dizem que "a API saiu mais cara que o esperado."

Além disso, a API é fundamentalmente uma interface de texto. Recursos de chat web como geração de imagens, entrada de voz, Code Interpreter, Canvas e Memory ou não existem pela API ou ficam em endpoints separados. As pessoas presumem que "80% dos recursos do ChatGPT estão na API", mas percebem que é mais próximo de 50–60%.

3. O que é um token? — a menor unidade de preço

Para entender os preços da API, você precisa entender "tokens." Os preços de todo fornecedor são escritos como "US$ X por 1M (um milhão) de tokens."

Fundamentos de tokens × 3

O mínimo que você precisa para ler preços

① Quanto é 1 token?

~0,75 palavra em inglês por token; CJK ~1–1,5 tokens por caractere. "Olá tudo bem" tem cerca de 3 tokens. Código tende a inchar por causa de indentação e símbolos.

② Preços de entrada e saída diferem

A saída é 5 a 10x mais cara que a entrada. Claude Sonnet 4.6 é US$ 3 de entrada / US$ 15 de saída — proporção 5x. Apenas instruir "responda de forma breve" economiza dinheiro de verdade.

③ System prompts também custam

Um preâmbulo "Você é um especialista em X" consome tokens a cada chamada. System prompts longos inflam a conta. O prompt caching ajuda (veja abaixo).

Para estimar antes de enviar, use a biblioteca tiktoken da OpenAI ou a API equivalente countTokens() da Anthropic.
Para mais informações, veja O que é a janela de contexto da IA.

4. Preços das principais APIs — Claude vs GPT vs Gemini

Maio de 2026 — preços de API dos principais modelos (entrada / saída, por 1 milhão de tokens). Mudanças de preço acontecem trimestralmente, então verifique o valor mais recente na página oficial de preços do fornecedor antes de decidir.

Modelo	Entrada	Saída	Observações
Claude Opus 4.7	US$ 5	US$ 25	Plano único 1M, qualidade máxima
Claude Sonnet 4.6	US$ 3	US$ 15	Plano único 1M, melhor custo-benefício
Claude Haiku 4.5	US$ 1	US$ 5	Leve, limite de 200K
GPT-5.5	US$ 5	US$ 30	Sobretaxa de 2x na entrada acima de 272K
GPT-5.4	US$ 2,50	US$ 15	Mesma sobretaxa de contexto longo
Gemini 3.1 Pro	US$ 2	US$ 12	Contexto de 2M, Batch API reduz pela metade
Gemini 2.5 Flash-Lite	US$ 0,10	US$ 0,40	Camada mais baixa para alto volume
DeepSeek V4-Pro	US$ 0,55	US$ 2,20	Pesos abertos, melhor custo/desempenho

Só a tabela já mostra: a saída custa 5 a 10x mais que a entrada. Toda chamada gera as duas, então usos com muita saída (sumarização, geração de artigos, geração de código) custam mais. Tarefas com pouca saída (classificação, respostas curtas) rodam muito barato na API.

Igualmente importante: "mecânicas de desconto":

Prompt caching (Anthropic / OpenAI): reutilize o mesmo system prompt e o preço da entrada cai até 90% a partir da segunda chamada
Batch API (OpenAI / Google): lotes assíncronos processados em até 24 horas, 50% de desconto
Custo de gravação no cache: a Anthropic cobra 1,25x para gravações no cache; leituras custam 0,1x

Pule esses recursos e você pagará o preço cheio quando poderia ter pago 1/3 a 1/5. Veja Economia de custo com tokens e sessões de IA para mais detalhes.

5. Escolhendo um modelo — mapa de quatro tipos de uso

"Qual modelo eu devo escolher?" é a maior dúvida dos iniciantes. Em maio de 2026, dividir em quatro tipos simplifica a decisão.

4 tipos de uso × modelos recomendados

Mapa de seleção por finalidade

① Premium / tarefas complexas

→ Claude Opus 4.7 / GPT-5.5

Raciocínio complexo, revisão de código, análise de documentos longos. Qualidade em primeiro lugar. O Opus tem vantagem em nuances; o GPT-5.5 em lógica rigorosa.

② Melhor custo-benefício — cavalo de batalha

→ Claude Sonnet 4.6 / GPT-5.4 / Gemini 3.1 Pro

Seu modelo do dia a dia. Equilíbrio entre qualidade e preço. O Sonnet tem taxa fixa em 1M; o Gemini cai pela metade com a Batch API.

③ Tarefas em massa / leves

→ Claude Haiku 4.5 / Gemini 2.5 Flash-Lite

Classificação, extração, Q&A simples, resumos. Entrada US$ 0,10–US$ 1 — drasticamente barato. Ideal para processamento em lote e tarefas rotineiras.

④ Pesos abertos / local

→ DeepSeek V4-Pro / Llama 4 etc.

Preços baixíssimos (US$ 0,55 / US$ 2,20) ou completamente grátis na sua própria GPU. Confidencialidade / compressão de custo como objetivo. Qualidade no nível de ② ou um pouco abaixo.

Minha melhor prática pessoal: combinar ② (cavalo de batalha) + ③ (em massa).
Escale para ① em tarefas complexas, roteie dados confidenciais por ④. Só isso já corta o custo mensal pela metade na prática.

6. Três armadilhas de preço em que todo iniciante cai

Nos primeiros 3 meses usando APIs, quase todo mundo cai em uma das três armadilhas de preço. Vamos a elas.

Armadilha ①: reenviar o histórico inteiro da conversa toda vez

A API não lembra. Para criar o comportamento "parece um chat", você precisa reenviar a conversa completa a cada chamada. Deixe isso sem gerenciamento e, no 10º turno, você estará enviando mais de 10.000 tokens de entrada por chamada. Solução: resuma a conversa antiga antes de reenviar ou trate mudanças de tópico como sessões novas.

Armadilha ②: inchar o system prompt

"Você é um especialista em X." "Siga estas 20 regras." "O formato de saída deve ser…" — um preâmbulo longo é coisa clássica de iniciante. Um system prompt de 2.000 tokens chamado 100 vezes por dia custa US$ 30/mês só por isso. Habilite o prompt caching e as chamadas a partir da segunda caem 90%. No código, geralmente é só adicionar cache_control: { type: "ephemeral" } em um bloco.

Armadilha ③: esquecer de definir limites de taxa / gastos

O desfecho mais assustador para iniciantes: "um bug coloca o código em loop infinito e a conta do fim do mês é US$ 500." Previna isso definindo um limite de gastos por chave (teto rígido). Tanto o Anthropic Console quanto a OpenAI Platform permitem limitar gastos mensais; defina isso quando criar a chave. Para iniciantes, US$ 20–50 é um teto seguro.

O mais importante: Nunca faça commit de uma chave de API no GitHub ou em qualquer lugar público. Bots varrem chaves vazadas em segundos e acumulam centenas de dólares em uso não autorizado em poucas horas. Coloque as chaves em variáveis de ambiente (.env) e adicione ao .gitignore, ou use um Secret Manager.

7. Sua primeira chamada de API — curl e Python em 5 minutos

Teoria à parte, aqui está o código mínimo para enviar "Olá" à API Claude da Anthropic.

Configuração (3 passos)

Crie uma conta no Anthropic Console (ou platform.openai.com para a OpenAI)
Emita uma chave de API (menu à esquerda "API Keys" → "Create Key"). Exibida apenas uma vez — salve agora
Em Settings, defina um Spending Limit de cerca de US$ 20 (obrigatório para iniciantes)

Chamada mínima com curl

curl https://api.anthropic.com/v1/messages \
  --header "x-api-key: $ANTHROPIC_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-sonnet-4-6",
    "max_tokens": 100,
    "messages": [
      {"role": "user", "content": "Olá do mundo da API de IA"}
    ]
  }'

Você recebe JSON de volta. A resposta da IA está em content[0].text; os tokens consumidos estão em usage.input_tokens e usage.output_tokens. "Quantos tokens isso realmente usou?" — essa resposta te diz, todas as vezes.

Python (recomendado)

pip install anthropic

import os
from anthropic import Anthropic

client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=100,
    messages=[
        {"role": "user", "content": "Olá do mundo da API de IA"}
    ]
)

print(response.content[0].text)
print(f"Usados: entrada {response.usage.input_tokens} / saída {response.usage.output_tokens}")

Quando esse código mínimo funcionar, você já estará na metade do caminho. O restante é gerenciamento do histórico de conversas, uso de ferramentas (function calling) e streaming — aprenda isso em ordem e você consegue construir a maioria dos apps de IA. Veja também Iniciantes conseguem criar apps com IA?.

Resumo

Recapitulando:

Chat web tem taxa fixa, API é pagamento por uso. Uso leve (~10/dia) fica em US$ 1–2/mês na API; uso intenso pode chegar a US$ 50–200/mês
Cinco diferenças: invocação / cobrança / UI / sessão / recursos. A API não lembra o histórico, então você o reenvia
Tokens são a unidade de preço. ~0,75 palavra em inglês por token; saída custa 5 a 10x a entrada
Preços de maio de 2026: Sonnet US$ 3/US$ 15, Opus US$ 5/US$ 25, GPT-5.5 US$ 5/US$ 30, Gemini 3.1 Pro US$ 2/US$ 12 (por 1 milhão de tokens)
Use um mapa de modelos em 4 tipos (premium / cavalo de batalha / leve / aberto). Combinar ② cavalo de batalha + ③ leve é a resposta prática
Três armadilhas de preço: acúmulo de histórico / system prompts inchados / falta de limites de gastos. Definir limites no primeiro dia previne a maioria delas
Primeira chamada: 5 minutos com curl ou Python. Não faça commit de chaves no GitHub e defina um limite de gastos primeiro — só isso

Assinaturas de chat web são convenientes, mas no momento em que você pensa "quero incorporar IA na minha própria ferramenta, automação ou workflow", a API se torna uma opção real. Parece intimidador no começo, mas defina um limite baixo de gastos, rode uma ou duas vezes e sinta que cada chamada custa cerca de US$ 0,01. Quando a conta do fim do mês chegar em US$ 1,50, você cruzará silenciosamente a linha em que a IA deixa de ser algo que você "usa" e passa a ser algo com que você "constrói".

FAQ

P1. Devo cancelar o ChatGPT Plus e migrar para a API?

Depende do uso. Se você chama a IA cerca de 200 vezes por mês e raramente usa geração de imagens ou recursos de voz, a API é mais barata (US$ 2–5/mês). Se você usa 10+ vezes por dia ou depende de geração de imagens / Memory, mantenha o Plus pela conveniência. Rode os dois em paralelo por um mês e compare as faturas — essa é a resposta mais certeira.

P2. Dá para experimentar sem cartão de crédito?

A OpenAI não tem programa de crédito gratuito; a Anthropic às vezes oferece cerca de US$ 5 de crédito de teste no cadastro. O Google AI Studio (Gemini) tem um Free Tier de verdade, onde você pode testar o Gemini 2.5 Flash e modelos similares gratuitamente dentro de limites. "Só quero tocar na API de graça" → comece pelo Gemini AI Studio.

P3. Posso usar a API sem conhecimento de programação?

É necessária uma habilidade básica de copiar e executar código. Mas como funciona em uma linha de curl ou cinco linhas de Python, a barreira é baixa para "copiar e rodar". Em 2026, pedir ao próprio Claude / ChatGPT "escreva minha primeira chamada à API da Anthropic em Python, com comentários" quase sempre retorna código funcional.

P4. A API é lenta?

Aproximadamente a mesma velocidade do chat web para o mesmo modelo. Com streaming ativado, a resposta tem aquela sensação de máquina de escrever que você vê no chat web. Em escala, você pode esbarrar em rate limits, mas eles sobem de tier conforme o histórico de uso (tanto a OpenAI quanto a Anthropic têm programas de Tier).

P5. Com qual modelo devo começar?

Claude Sonnet 4.6 ou Gemini 3.1 Pro. O primeiro oferece inglês natural e preço fixo em 1M; o segundo tem um tier gratuito e 50% de desconto via Batch API. Opus / GPT-5.5 têm qualidade máxima, mas são mais caros; modelos leves (Haiku / Flash-Lite) podem ser confusamente sucintos para quem está aprendendo pela primeira vez. Fixe um modelo principal e adicione outros conforme as necessidades surgirem — esse é o roteiro padrão.

O que é uma API de IA? — Guia para iniciantes sobre preços, tokens, escolha de modelo e a diferença para o chat web