Quando você quer começar com um LLM local, a primeira preocupação costuma ser: "Será que vai rodar no meu PC?" A resposta curta: 90% da especificação necessária se resume à VRAM (a memória da sua GPU). Acerte isso e você saberá na hora o que vai rodar e o que não vai.

Este artigo apresenta uma tabela rápida de VRAM por tamanho de modelo, uma fórmula simples, a armadilha de memória que cresce com o tamanho do contexto, velocidades realistas por GPU/Mac e, por fim, configurações recomendadas por orçamento. O jargão é mantido ao mínimo para que até quem é iniciante consiga descobrir "qual devo comprar".

LOCAL LLM · HARDWARE

É quase tudo sobre VRAM

— Tudo se resume a se o modelo cabe na memória

ENTRY

VRAM 8–12 GB

Classe 7B–14B. Chat do dia a dia, resumos, código leve. O ponto de partida mais fácil.

STANDARD

VRAM 24 GB

Até a classe 32B. A linha prática com ótimo equilíbrio entre qualidade e velocidade.

SERIOUS

40–64 GB+

Classe 70B. Qualidade que se aproxima da nuvem de nível intermediário. Os custos também sobem.

1. A conclusão: é quase tudo sobre VRAM

Montar um PC envolve muitas peças — CPU, GPU, memória — mas para LLMs locais a coisa mais importante de todas é a VRAM (memória de vídeo, a memória da GPU). O motivo é simples: se o modelo inteiro cabe na VRAM, ele roda rápido e fluido; se não cabe, fica dolorosamente lento ou simplesmente não roda.

💡 Em poucas palavras: escolher a especificação de um LLM local segue esta ordem: "o tamanho do modelo que você quer rodar" → "a VRAM que ele exige" → "uma GPU/Mac que atenda a isso". A capacidade de CPU e RAM é secundária.

Os chips da série M da Apple (Mac) são um caso especial: graças à "memória unificada", a RAM instalada pode ser usada diretamente como VRAM. Por isso um Mac com bastante memória consegue rodar modelos grandes mesmo sem uma GPU dedicada — mais sobre isso adiante.

2. Entenda primeiro a quantização — ela muda tudo

Antes de falar da VRAM necessária, não tem como escapar da quantização. É uma técnica que comprime o modelo para deixá-lo mais leve, e o quanto você comprime muda a necessidade de memória em várias vezes.

FP16 (sem compressão)

~2 bytes por parâmetro. Qualidade máxima, mas consome o máximo de memória. Indivíduos raramente usam.

Q8 (8 bits)

~1 byte por parâmetro. Cerca de metade do FP16. A perda de qualidade é mínima — a escolha "voltada à qualidade".

Q4 (4 bits)

~0,5–0,7 bytes por parâmetro. Cerca de 1/4 do FP16. Ótimo equilíbrio entre qualidade e leveza — a escolha padrão para uso pessoal.

🔑 Fórmula aproximada: VRAM necessária ≈ número de parâmetros (B) × bytes por parâmetro. Exemplo: para rodar um modelo 7B em Q4, 7 × ~0,6 ≈ ~4–5 GB. Adicione +10–20% para o cache KV (contexto, visto a seguir) para ficar tranquilo.

3. VRAM necessária por tamanho do modelo (tabela rápida)

Supondo a quantização Q4 mais prática, aqui estão metas aproximadas de VRAM por tamanho (incluindo folga para o contexto). Compare com "a VRAM da sua GPU" e você verá na hora o seu limite máximo.

Classe 7B–8B

VRAM ~6–8 GB

Ideal para começar. Chat, resumos, tradução, código leve. Alcançável em muitos notebooks.

Classe 13B–14B

VRAM ~8–12 GB

Respostas um pouco mais inteligentes. O "ponto ideal" para GPUs intermediárias como a RTX 3060 (12 GB).

Classe 32B

VRAM ~20–24 GB

A linha prática superior. O clássico alvo de placa única para uma RTX 4090 (24 GB).

Classe 70B

VRAM ~40–48 GB+

Nível sério. Um Mac com muita memória ou várias GPUs é o realista.

Subir ainda mais, para 100B+ (modelos muito grandes), exige 128 GB ou mais — além do alcance pessoal. Por outro lado, um modelo minúsculo de 1–3B roda em cerca de 4 GB, então até um PC modesto consegue começar.

4. A armadilha do tamanho do contexto / cache KV

Fácil de passar despercebido: a memória cresce com o tamanho do contexto. Um LLM mantém o histórico da conversa e da entrada na VRAM como um cache KV. Quanto mais longo o texto que você processa, mais memória ele usa além do próprio modelo.

4k

~+0,3 GB num 7B. Desprezível para perguntas curtas.

32k

~+2,5 GB num 7B. Começa a pesar em resumos longos e conversas extensas.

128k

~+10 GB num 7B. Pode superar o próprio modelo. Zona de cuidado.

📌 Dica prática: "rodou bem no limite da VRAM, e travou quando coloquei um documento longo" — é por isso. Estime sua necessidade no tamanho de contexto que você realmente usa. Se você não lida com documentos longos, basta definir um tamanho de contexto menor para liberar memória.

5. GPUs e Macs na prática (guia de velocidade)

Mesmo para o mesmo modelo, o hardware muda muito a velocidade (tokens gerados por segundo = tok/s). Aqui estão as principais opções com uma noção aproximada (os números são referências que variam conforme a configuração e o modelo).

RTX 3060 (12 GB)

Fácil de achar usada — o clássico de entrada. 7B–14B rodam confortavelmente. Se o custo é a prioridade, comece aqui.

RTX 4090 (24 GB)

Até a classe 32B em uma única placa. Um 7B pode passar de 100 tokens/seg. A escolha pessoal de ponta. Um 70B precisa descarregar parte para a CPU e fica bem mais lento.

RTX 5090 (32 GB)

Mais VRAM permite rodar 32B em Q8, ou um 70B com quantização agressiva em uma única placa. A velocidade também é de primeira linha.

Apple Mac (M4/M5 Max)

Com 64 GB de memória unificada, até a classe 70B é possível (a velocidade é modesta — cerca de 20–30 tokens/seg num 70B). Silencioso e eficiente em energia.

Só CPU (sem GPU)

Modelos pequenos até rodam, mas devagar. Serve para "só experimentar". O uso diário realmente pede uma GPU/Mac.

6. O que você precisa além da VRAM

A VRAM é a protagonista, mas o elenco de apoio também importa. Três coisas para cobrir no mínimo.

🧠

RAM do sistema

O amortecedor para o que não cabe na VRAM. 16 GB ou mais, idealmente 32 GB. Num Mac, a memória unificada conta diretamente.

💾

Armazenamento (SSD)

Um único modelo tem de vários a dezenas de GB. Se for testar vários, mantenha bastante espaço livre no SSD. NVMe recomendado.

Energia e refrigeração

GPUs de ponta consomem muita energia e esquentam. Deixe folga na fonte de alimentação e na refrigeração.

7. Configurações recomendadas por orçamento (3 níveis)

Três padrões que respondem "afinal, o que eu compro?". Escolha pelo caso de uso e pelo orçamento.

ENTRY

Só experimentando: VRAM 8–12 GB

Uma placa da classe RTX 3060 (12 GB), ou um Mac com 16–24 GB de memória unificada. A classe 7B–14B roda, suficiente de sobra para o dia a dia. Uma GPU usada é o jeito mais barato de começar.

STD

Usando a sério: VRAM 24 GB

Uma RTX 4090 (24 GB), ou um Mac com 32–48 GB de memória unificada. A classe 32B roda confortável, com o melhor equilíbrio entre qualidade e velocidade. A escolha "na medida certa".

PRO

Mirando no maior: 40–64 GB+

Uma RTX 5090 ou várias GPUs, ou um Mac de ponta com 64 GB+ de memória unificada. A classe 70B se aproxima da nuvem de nível intermediário. Esteja preparado para o custo e o consumo de energia.

8. Como saber qual modelo você consegue rodar

Não sabe qual modelo escolher? Veja a comparação dos melhores LLM locais para escolher por uso, tamanho e origem.

Verifique em três passos antes de comprar ou baixar, e você não vai errar.

  1. Verifique sua VRAM (ou a memória unificada do seu Mac). Esse é o seu teto.
  2. Estime a necessidade aproximada com tamanho do modelo (B) × ~0,6 (Q4). Adicione +10–20% para o contexto.
  3. Confirme que o total cabe na sua VRAM. Se não couber, escolha "um tamanho menor" ou "quantização mais forte (Q4 → bits ainda mais baixos)".

💡 Na dúvida, comece pequeno: com o Ollama ou o LM Studio, basta escolher um modelo e baixar. Experimente primeiro a classe 7B e suba um nível se sentir que falta algo — essa ordem é segura e confiável.

Resumo

A especificação de que você precisa para um LLM local se resume a três pontos.

  • A VRAM é a protagonista: se o modelo cabe na memória é tudo. Um Mac pode mirar em muita memória via memória unificada.
  • Quantização e contexto mexem no número: em Q4, "tamanho (B) × ~0,6" mais o contexto (+10–20%) é a referência. 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
  • Três níveis por orçamento: entrada (8–12 GB) / padrão (24 GB) / sério (40–64 GB+). Na dúvida, comece pequeno e suba aos poucos.

Uma vez que você conhece as especificações, um LLM local fica bem mais acessível. Em seguida, pesando as diferenças em relação à nuvem, rode um na sua própria máquina. Os passos de configuração estão cobertos em como rodar um LLM local.

FAQ

Q. Um notebook comum (sem GPU) consegue rodar um LLM local?

A. Modelos pequenos (1–3B, ou um 7B leve) vão rodar, mas devagar. É ótimo para "experimentar", mas para um uso diário confortável, uma GPU com 8 GB+ de VRAM ou um Mac com bastante memória unificada é o realista.

Q. Minha VRAM está um pouco curta. Como ainda assim consigo rodar?

A. Três opções: ① escolha uma quantização mais forte (uma versão de bits mais baixos), ② baixe para um modelo um tamanho menor, ③ defina um tamanho de contexto mais curto. Normalmente isso basta para caber. Você também pode descarregar parte para a CPU, mas a velocidade cai.

Q. GeForce ou Mac — qual é melhor?

A. Para velocidade e expansibilidade, GeForce (GPU NVIDIA). Para operação silenciosa e eficiente em energia que aproveita muita memória para rodar modelos grandes, um Mac (memória unificada). Se você quer lidar com a classe 70B em uma única máquina, um Mac de 64 GB+ é uma opção forte.

Q. De quanta RAM de sistema eu preciso?

A. 16 GB ou mais de RAM de sistema, idealmente 32 GB. Observe que num Mac, a memória unificada faz as vezes de VRAM, então a capacidade de memória determina diretamente o tamanho de modelo que você consegue rodar.

Q. Afinal, qual é uma boa primeira máquina?

A. Pelo custo-benefício, uma RTX 3060 (12 GB) usada para 7B–14B. Se o orçamento permitir, uma RTX 4090 (24 GB) dá conta de até a classe 32B em uma única placa e dura bastante tempo. Para fãs da Apple, um Mac com bastante memória unificada é o caminho fácil. Comece pequeno e suba conforme a necessidade — é assim que se evitam erros.