Como os LLMs funcionam: pesos, energia e custo explicados

Q: Posso construir meu próprio LLM?

"Classe de fronteira" é impossível para um indivíduo (precisa de centenas de milhões de dólares e dezenas de milhares de GPUs). Mas treinar um modelo pequeno, ou fazer fine-tuning de um modelo aberto existente, é viável até para indivíduos. Além disso, a maioria das necessidades práticas é atendida usando modelos existentes via API. Quase não há necessidade de "construir tudo você mesmo".

Q: O consumo de energia da IA é um problema sério para o planeta?

É fato que a escala está se tornando não desprezível (a energia de data centers é cerca de 1,5% da mundial, projetada para dobrar até 2030) (IEA). Mas a eficiência também avança furiosamente em paralelo; a "energia por token" cai ano após ano. O problema é menos "a eficiência de uma consulta" do que "o crescimento explosivo do volume total × frequência." Quanto as renováveis, a nuclear e os chips dedicados conseguem compensar isso é o foco futuro.

Q: No fim das contas, o que vale a pena saber como usuário?

Três coisas. (1) O modelo é um "preditor de probabilidades", então ele erra mesmo num tom confiante (verifique informações importantes). (2) Perguntas pesadas custam caro em energia e dinheiro, então escolha o modelo pelo peso da tarefa (tarefas leves para modelos leves). (3) "Desempenho de pico" é uma briga de dinheiro, mas "desempenho prático" fica mais barato e mais eficiente em energia a cada ano (esperar os modelos gratuitos/baratos evoluírem também é inteligente). Quanto mais você conhece o mecanismo, mais barato e habilmente consegue usar a IA.

Como os LLMs realmente funcionam — os pesos que preveem palavras, o consumo de energia e por que o desenvolvimento é uma briga de dinheiro

Conteúdo

1. Um LLM apenas fica adivinhando "a próxima palavra"
2. O que são os "pesos"? — Um trilhão de botões geram inteligência
3. Dois estágios de aprendizado — pré-treino e pós-treino (RLHF)
4. Inferência — o momento em que sua pergunta vira eletricidade
5. Energia — quanta eletricidade um LLM consome?
6. É verdade que "o desenvolvimento é uma briga de dinheiro"?
7. Mas dinheiro sozinho não vence — o refluxo da eficiência
8. O que vem a seguir — a barreira de "energia e física" depois do dinheiro
Resumo
FAQ

Estima-se que o GPT-4, lançado em 2023, tenha sido treinado executando cerca de 25.000 GPUs no Microsoft Azure durante meses. O poder de cálculo despejado naquele único treinamento foi de aproximadamente 2×10²⁵ operações de ponto flutuante (FLOPs). Mesmo o treinamento do antigo GPT-3 sozinho queimou cerca de 1.287 MWh de eletricidade — mais de um século de energia de uma residência média, gastos só para construir um único modelo. Por trás do casual "ei, resuma isto" que digitamos existe um mundo de física e pilhas de dinheiro.

Este artigo investiga a fundo "como um LLM (modelo de linguagem de grande porte) realmente funciona", a partir de três direções: mecanismo, energia e dinheiro. Especificamente — (1) por que um LLM consegue produzir linguagem a partir de um conjunto de botões chamados "pesos (parâmetros)", (2) quanta eletricidade uma pergunta ou um treinamento consome, e (3) é verdade a afirmação de que "o desenvolvimento de LLMs de fronteira é uma briga de dinheiro"? A resposta curta para a terceira: "Para a fronteira absoluta, é essencialmente verdade — mas uma contracorrente em que 'dinheiro sozinho não vence' se fortaleceu em 2026." Esse é o quadro preciso.

Minha posição, de cara: a "inteligência" de um LLM não é nem mágica nem consciência — é o resultado de moldar à força uma gigantesca máquina de previsão de probabilidades com eletricidade. Entender o mecanismo dissolve tanto o entusiasmo excessivo quanto o medo excessivo. Este artigo vai a uma profundidade de nível intermediário. Se você está começando do "o que é afinal um LLM", leia primeiro o que é um LLM (introdução); para o comprimento de contexto veja a janela de contexto; para preços veja API de IA para iniciantes.

COMO OS LLMs FUNCIONAM · PESOS × ENERGIA × DINHEIRO

Dissecando um LLM a partir de três direções

— Do que a inteligência é feita, a energia que ela queima, o dinheiro que ela custa

Mecanismo

Os pesos preveem a próxima palavra

Centenas de bilhões a mais de 1 trilhão de botões apenas calculando probabilidades

Energia

Uma consulta ≈ 0,4–33 Wh

Um treinamento = mais de 100 anos-residência de energia

Dinheiro

US$ 200–500 mi na fronteira

Até 2027, projetam-se treinamentos de US$ 1–3 bi

A esperteza de um LLM não é mágica. É o resultado de moldar à força uma gigantesca máquina de probabilidades com energia e dinheiro.
Conheça o mecanismo, e tanto o hype quanto o medo se dissolvem.

1. Um LLM apenas fica adivinhando "a próxima palavra"

Pode soar surpreendente, mas ChatGPT, Claude e Gemini fazem, em essência, uma única coisa. "Dado o texto até agora, calcular a probabilidade da próxima palavra mais provável (mais precisamente, 'token') como continuação, escolher uma e enfileirá-las." É isso. Dê a ele "o gato está sobre o ___" e ele atribui probabilidades a candidatos como "tapete", "sofá", "chão" e emite o mais alto (ou um amostrado por probabilidade). Ele repete isso um token de cada vez até o texto terminar.

Aqui está a questão que confunde muita gente. "Como um mero jogo de adivinhar palavras consegue resumir artigos ou escrever código?" A resposta: "Para realmente adivinhar a próxima palavra com precisão, ele não tem escolha a não ser 'entender' em certo grau a estrutura do mundo." Adivinhar "a capital do Japão é ___" exige geografia; "3 + 5 = ___" exige aritmética; "a causa deste bug é ___" exige conhecimento de programação mantido internamente. Como subproduto de treinar a "adivinhação da próxima palavra" ao extremo sobre uma enorme quantidade de texto, conhecimento e raciocínio emergem. Essa é a natureza estranha e essencial dos LLMs.

Então, o que está calculando essa "probabilidade da próxima palavra"? Como antecipado, o protagonista é uma pilha impressionante de números chamada "pesos (parâmetros)". O próximo capítulo revela o que eles são.

2. O que são os "pesos"? — Um trilhão de botões geram inteligência

Para resumir o interior de um LLM em uma analogia: "um gigantesco dispositivo de cálculo com centenas de bilhões a mais de um trilhão de 'botões'." Cada botão é um "peso (parâmetro)" e, quando o sinal de uma palavra de entrada passa para a próxima camada, ele decide "quais sinais reforçar ou enfraquecer, e em quanto." O GPT-3 tinha cerca de 175 bilhões; diz-se que os modelos de fronteira mais recentes ultrapassam um trilhão. A configuração desses vastos botões é exatamente o "conhecimento" aprendido pelo modelo.

PESOS

Como os "pesos" se transformam em linguagem

① Tokenizar

Dividir o texto em fragmentos de palavra (tokens) e converter em vetores numéricos

② Passar pelos pesos

Dezenas de camadas Transformer transformam os sinais multiplicando pesos

③ Attention

Os pesos julgam em quais palavras da frase focar

④ Emitir probabilidades

Calcular a distribuição de probabilidade do próximo token e escolher um

"Aprender" é o trabalho de girar esses trilhões de botões pouco a pouco em direção à resposta certa.
A configuração final dos botões (pesos) = o próprio "conhecimento" do modelo.

O Transformer, que surgiu em 2017, é a base dos LLMs modernos. Seu coração é o mecanismo de "Attention", que julga dinamicamente, por pesos, "qual palavra na frase importa para a palavra atual." Se "banco" em "vi o rio em frente ao banco" significa uma instituição financeira ou a margem do rio é decidido ponderando sua relação com as outras palavras do contexto — e essa "ponderação dependente do contexto" é exatamente por que um LLM consegue retornar respostas coerentes mesmo em trechos longos. Quando as pessoas dizem "algo sobre ponderação", referem-se precisamente a esse Attention e aos trilhões de multiplicações por trás dele.

O ponto crucial: esses pesos não foram definidos à mão. No início, são um amontoado de números aleatórios, sem sentido. O sentido é instilado por meio do "aprendizado." Então, como esse aprendizado acontece?

3. Dois estágios de aprendizado — pré-treino e pós-treino (RLHF)

O aprendizado de um LLM se divide amplamente em dois estágios — o processo pelo qual os "botões aleatórios" do capítulo anterior se tornam "botões inteligentes."

Estágio 1: Pré-treino. Alimente-o com texto em escala de internet (livros, a web, código) e faça-o "adivinhar a próxima palavra" sem parar. Cada vez que erra, todos os parâmetros são ajustados por uma pequena quantidade na direção que reduz o erro (esse algoritmo de ajuste é a famosa "retropropagação + descida de gradiente"). Repita isso ao longo de trilhões de tokens, e os fundamentos de gramática, conhecimento e raciocínio ficam gravados nos botões. O pré-treino consome a maior parte do poder de cálculo, da energia e do dinheiro. Os astronômicos ~2×10²⁵ FLOPs de um modelo da classe GPT-4 queimam aqui.

Estágio 2: Pós-treino. Um modelo apenas pré-treinado é "conhecedor, mas mal-educado." Então o RLHF (aprendizado por reforço a partir de feedback humano) e técnicas semelhantes ensinam a ele "formas úteis e seguras de responder." Além disso, de 2025 em diante, o peso do pós-treino que treina raciocínio longo (pensar com cuidado), uso de ferramentas e comportamento agêntico disparou, a ponto de, para as famílias Claude, GPT e Gemini, o pós-treino agora ocupar cerca de 15–25% do poder de cálculo total. A razão de os modelos recentes "pensarem antes de responder" tanto é a evolução desse pós-treino. O comportamento multiagente também é instilado aqui.

4. Inferência — o momento em que sua pergunta vira eletricidade

Se o treinamento é "a obra de construção que define os botões", então a inferência é "a operação de realmente produzir respostas usando os botões prontos." Toda vez que você digita uma pergunta no ChatGPT, trilhões de multiplicações percorrem quase um trilhão de botões, e os tokens são gerados um de cada vez. Vimos o quão pesado é o treinamento — mas na sociedade como um todo, é a inferência, não o treinamento, que consome a energia.

A razão é simples: o treinamento roda basicamente uma vez por modelo, mas a inferência roda centenas de milhões de vezes por dia em todo o mundo. Ao longo da vida útil de um modelo, a demanda de energia e de cálculo se acumula muito mais na inferência do que no treinamento. "Uma pergunta é quase nada de eletricidade" — verdade, uma é minúscula. Mas "minúsculo × centenas de milhões × todo dia" se acumula em um problema de energia em escala nacional. Vejamos números concretos a seguir.

5. Energia — quanta eletricidade um LLM consome?

"A IA consome energia" é dito com frequência, mas quanto exatamente? Aqui estão os números representativos publicados a partir de 2026.

ELETRICIDADE

Consumo de energia de LLMs em números

Uma consulta (curta)

0,43Wh

classe GPT-4o
uma pergunta curta

Um raciocínio pesado

33Wh+

modelo de raciocínio longo
~70x a versão leve

Treinar o GPT-3

1.287MWh

550t+ de CO2
(uma geração antiga)

Energia global de DC

415→945

TWh
previsão 2024→2030

Mesmo uma consulta curta (0,43Wh), escalada para 700 mi/dia, equivale à energia de ~35.000 residências dos EUA.
Um rack de data center puxa até 10x a norma antiga; um DC dedicado à IA consome 20MW–1GW.

O que se destaca é que "a eficiência energética difere por ordens de magnitude entre modelos." Uma pergunta curta a um modelo leve fica abaixo de 0,5 Wh, mas lançar uma pergunta pesada a um modelo de raciocínio longo (do tipo que reflete antes de responder) consome 33 Wh+ — cerca de 70x a versão leve. Como mencionado em a armadilha do consumo de tokens como carga de trabalho, "fazer tudo no modelo de topo" é um luxo tanto em energia quanto em custo. Enviar tarefas leves a um modelo leve é gentil tanto com o planeta quanto com o seu bolso. Segundo a IEA, a energia global de data centers atingiu 415 TWh em 2024 (cerca de 1,5% do total mundial) e projeta-se que dobre para 945 TWh até 2030 — com a IA como principal motor desse crescimento.

6. É verdade que "o desenvolvimento é uma briga de dinheiro"?

Aqui está a pergunta que mais despertou sua curiosidade. "O desenvolvimento de LLMs de fronteira é uma briga de dinheiro?" A conclusão verificada primeiro: "Limitado ao pré-treino da fronteira, é essencialmente verdade." Os números confirmam.

BRIGA DE DINHEIRO

Trajetória do custo de treinamento na fronteira

GPT-3 (2020)

~ 3×10²³ FLOPs. Fora da curva para a época

GPT-4 (2023)

~ 2×10²⁵ FLOPs. ~25.000 GPUs

fronteira 2026

10²⁶–10²⁷ FLOPs / US$ 200–500 mi

previsão 2027

um único treinamento chegando a US$ 1–3 bi

O poder de cálculo de treinamento de fronteira cresceu por muito tempo a 4–10x por ano.
Um treinamento da classe GPT-5 / Gemini Ultra = US$ 200–500 mi — uma briga de dinheiro, de fato.

Concretamente, treinar um modelo da classe GPT-5 / Gemini Ultra uma vez é estimado em US$ 200–500 milhões, e algumas previsões colocam a fronteira do fim de 2027 em US$ 1–3 bilhões por treinamento. E isso é "um treinamento bem-sucedido" — por trás dele estão tentativas e erros fracassados, preparação de dados, salários e infraestrutura de inferência. Além disso, cada GPU custa milhares de dólares; rodar dezenas de milhares delas por meses acumula a conta de eletricidade. Uma barreira de dinheiro que "uma ideia brilhante" ou "um algoritmo engenhoso" sozinhos jamais conseguem superar se ergue na entrada da fronteira. Nesse sentido, "briga de dinheiro" não é exagero — é fato. É por isso que apenas um punhado de quem garantiu capital enorme — OpenAI, Google, Anthropic, Meta, xAI — pode lutar na linha de frente.

7. Mas dinheiro sozinho não vence — o refluxo da eficiência

O capítulo anterior disse que "a briga de dinheiro é real". Mas encerrar a história aí é interpretar mal a realidade de 2026. Não é de forma alguma verdade que "com dinheiro suficiente você vence" — pelo contrário, uma contracorrente se fortaleceu. Como resposta honesta, deixe-me escrever também esse outro lado.

O caso simbólico é a série de movimentos em que a chinesa DeepSeek lançou modelos que se aproximam da fronteira com um orçamento relativamente pequeno, e disse-se que "redefiniu o piso de custo." Técnicas para construir o mesmo desempenho ordens de magnitude mais barato — arquiteturas eficientes, Mixture of Experts (MoE), destilação (transferir o conhecimento de um modelo grande para um pequeno) e trabalho cuidadoso sobre a qualidade dos dados — foram demonstradas uma após a outra, cravando uma cunha na fórmula "capital enorme = vitória". De fato, projeta-se que o crescimento do poder de cálculo de fronteira desacelere de 10x por ano para cerca de 3–4x a partir de 2026, e a atenção da indústria está mudando de "apenas ir maior" para "como entregar o mesmo desempenho mais barato e com menos energia."

Então o quadro preciso é este: "A corrida para atualizar o 'desempenho de pico' da fronteira é uma briga de dinheiro. Mas a corrida para entregar 'desempenho bom o suficiente' de forma barata é um embate de astúcia e eficiência." A maioria dos modelos que usamos no dia a dia se beneficia do segundo, ficando mais baratos, mais rápidos e mais eficientes em energia ano após ano. Como escrito em até onde dá para ir no plano gratuito, em 2026 até os planos gratuitos alcançaram um nível prático — fruta entregue aos usuários pelo refluxo da eficiência.

8. O que vem a seguir — a barreira de "energia e física" depois do dinheiro

Então dá para escalar para sempre só empilhando dinheiro? Não — e essa é a nova barreira que começou a surgir em 2026. Acima de cerca de 10²⁷ FLOPs, o gargalo deixa de ser "o orçamento para comprar GPUs." Em vez disso, o que bloqueia o caminho é —

Energia: você consegue fornecer continuamente eletricidade em escala de gigawatts em um único lugar? Agora um problema de usinas e redes elétricas
Interconexão: a largura de banda para sincronizar dezenas a centenas de milhares de GPUs sem latência. Há um teto físico para o que um único treinamento gigante consegue suportar
Dados: o texto de treinamento de alta qualidade está esgotando por si só (há um limite para quanto bom material a humanidade já produziu)

O que vem depois da "briga de dinheiro" é "uma briga de energia, física e astúcia." É por isso que as empresas estão agora migrando para investir em energia nuclear, desenvolver seus próprios chips dedicados, aproveitar dados sintéticos e pesquisar arquiteturas eficientes. A era em que se podia vencer jogando dinheiro está, ironicamente, virando uma era em que não dá para vencer só com dinheiro.

Resumo

A verdadeira natureza de um LLM é "um gigantesco dispositivo de previsão onde centenas de bilhões a mais de um trilhão de 'pesos' ficam calculando a probabilidade da próxima palavra." O Attention do Transformer cuida da "ponderação dependente do contexto", e o pré-treino (que consome a maior parte do poder de cálculo, da energia e do dinheiro) somado ao pós-treino (RLHF, treinamento de raciocínio) torna os botões inteligentes. A esperteza não é mágica — é um subproduto de treinar a "adivinhação da próxima palavra" ao extremo sobre uma enorme quantidade de texto.

Sobre energia: uma consulta curta ≈ 0,43 Wh, raciocínio pesado 33 Wh+ (cerca de 70x a versão leve) e o treinamento do GPT-3 sozinho 1.287 MWh. Na sociedade, a inferência acaba consumindo muito mais energia do que o treinamento ao longo da vida útil de um modelo, e, segundo a IEA, a energia global de data centers deve dobrar para 945 TWh até 2030. "Fazer tudo no modelo de topo" é um luxo tanto em energia quanto em custo; a jogada inteligente é escolher o modelo pelo peso da tarefa.

E a pergunta central — "o desenvolvimento de LLMs é uma briga de dinheiro?" A resposta é "essencialmente verdade, limitado ao pré-treino da fronteira" (US$ 200–500 mi por treinamento da classe GPT-5; US$ 1–3 bi projetados para 2027). Mas o refluxo do "dinheiro sozinho não vence" também é forte (a redefinição do piso pela DeepSeek, eficiência, destilação). Atualizar o desempenho de pico é uma briga de dinheiro; entregar desempenho prático de forma barata é uma briga de astúcia — essa estrutura de duas camadas é a realidade de 2026. E a seguir vem a barreira física de energia, interconexão e escassez de dados. Entender um LLM não como uma "caixa mágica", mas como uma "máquina de probabilidades movida a eletricidade", impede que você seja arrastado pelo hype ou pelo medo. Para saber mais, veja o que é um LLM (introdução), a janela de contexto e a comparação dos planos gratuitos.

FAQ

P. Mais parâmetros (pesos) significam sempre mais inteligência?
R. "Maior era mais inteligente" valeu quase universalmente outrora, mas em 2026 não é tão simples. Mesmo com a mesma contagem de parâmetros, o desempenho varia muito com a qualidade dos dados, o pós-treino e a engenhosidade arquitetônica. Modelos pequenos-mas-inteligentes (produtos de destilação e design eficiente) se multiplicaram, e "contagem de parâmetros = inteligência" já não se sustenta. Entramos numa era de "como é treinado" sobre "quantos".

P. Um LLM realmente "entende", ou é memorização mecânica?
R. Até os especialistas discordam — é uma pergunta difícil. O que é certo é que "ele mostra uma generalização que a memorização mecânica não consegue explicar" (resolve problemas que não estavam em seu treinamento). Se isso é "a mesma compreensão de significado que os humanos" é uma questão separada, sem resposta clara. Na prática, trate-o como "um dispositivo de previsão extremamente avançado que se comporta como se entendesse." É exatamente por isso que ele erra com tanta confiança (alucinação).

P. Posso construir meu próprio LLM?
R. "Classe de fronteira" é impossível para um indivíduo (precisa de centenas de milhões de dólares e dezenas de milhares de GPUs). Mas treinar um modelo pequeno, ou fazer fine-tuning de um modelo aberto existente, é viável até para indivíduos. Além disso, a maioria das necessidades práticas é atendida usando modelos existentes via API. Quase não há necessidade de "construir tudo você mesmo".

P. O consumo de energia da IA é um problema sério para o planeta?
R. É fato que a escala está se tornando não desprezível (a energia de data centers é cerca de 1,5% da mundial, projetada para dobrar até 2030) (IEA). Mas a eficiência também avança furiosamente em paralelo; a "energia por token" cai ano após ano. O problema é menos "a eficiência de uma consulta" do que "o crescimento explosivo do volume total × frequência." Quanto as renováveis, a nuclear e os chips dedicados conseguem compensar isso é o foco futuro.

P. No fim das contas, o que vale a pena saber como usuário?
R. Três coisas. (1) O modelo é um "preditor de probabilidades", então ele erra mesmo num tom confiante (verifique informações importantes). (2) Perguntas pesadas custam caro em energia e dinheiro, então escolha o modelo pelo peso da tarefa (tarefas leves para modelos leves). (3) "Desempenho de pico" é uma briga de dinheiro, mas "desempenho prático" fica mais barato e mais eficiente em energia a cada ano (esperar os modelos gratuitos/baratos evoluírem também é inteligente). Quanto mais você conhece o mecanismo, mais barato e habilmente consegue usar a IA.

Como os LLMs realmente funcionam — os pesos que preveem palavras, o consumo de energia e por que o desenvolvimento é uma briga de dinheiro

Dissecando um LLM a partir de três direções

1. Um LLM apenas fica adivinhando "a próxima palavra"

2. O que são os "pesos"? — Um trilhão de botões geram inteligência

Como os "pesos" se transformam em linguagem

3. Dois estágios de aprendizado — pré-treino e pós-treino (RLHF)

4. Inferência — o momento em que sua pergunta vira eletricidade

5. Energia — quanta eletricidade um LLM consome?

Consumo de energia de LLMs em números

6. É verdade que "o desenvolvimento é uma briga de dinheiro"?

Trajetória do custo de treinamento na fronteira

7. Mas dinheiro sozinho não vence — o refluxo da eficiência

8. O que vem a seguir — a barreira de "energia e física" depois do dinheiro

Resumo

FAQ

Artigos relacionados

Datas de corte de conhecimento das principais IAs generativas: ChatGPT, Claude, Gemini e mais

O que é IA Generativa? Como se diferencia da IA tradicional

Pontos fortes e fracos da IA generativa — O que consegue e não consegue fazer com exemplos reais

O que é um LLM? Como Funcionam os Modelos de Linguagem, Principais Modelos e Usos

Comentários

Deixe um comentário