Ao começar com um LLM local, a ferramenta de referência para instalar primeiro é o Ollama. Ele cuida de quase toda a configuração trabalhosa para você, então dá para baixar um modelo e começar a conversar com um único comando. Este artigo percorre instalação, comandos centrais, escolha de modelos, GUIs, uso da API, personalização e solução de problemas — do começo ao fim, para iniciantes.

A conclusão antes de tudo: o Ollama é como o "Docker para LLMs". Basta digitar ollama run e ele baixa, inicia e deixa você conversar com um modelo quantizado. Execute primeiro e, depois — quando estiver à vontade —, integre-o aos seus próprios apps via API. Vamos abordar nessa ordem.

LOCAL LLM RUNTIME

Um comando, um LLM local

— Ele cuida de quase toda a parte trabalhosa da configuração

$ ollama pull qwen3
$ ollama run qwen3
>>> Olá! O que você consegue fazer?

✅ Gratuito / OSS

🖥️ Win/Mac/Linux

🔌 API local

⏱️ Configura em minutos

1. O que é o Ollama? O runtime de referência para LLMs locais

O Ollama é uma ferramenta gratuita e de código aberto para rodar LLMs locais com facilidade no seu próprio PC. Ele resolve a parte trabalhosa — baixar modelos, lidar com formatos de quantização, configurar o uso de GPU — nos bastidores, de modo que tudo o que você faz é "indicar um modelo e executá-lo".

💡 Em poucas palavras: o Ollama é o "Docker para LLMs". Baixe um modelo com ollama pull e converse com ollama run. Ele também sobe um servidor de API local, então seus próprios apps e interfaces de chat também podem chamá-lo.

Uma ferramenta parecida é o LM Studio. De forma resumida: Ollama = focado em CLI, para desenvolvedores, APIs e automação; LM Studio = focado em GUI, para quem não é engenheiro e está começando. Ambos são gratuitos e instalam em minutos. Este artigo gira em torno do Ollama (que também cobre APIs e integração); se você quer uma GUI, vá para a Seção 5.

2. Instalação (Win / Mac / Linux)

Basta pegar o instalador no site oficial, ollama.com. Veja o passo a passo por sistema operacional.

🪟 Windows / 🍎 Mac

Basta baixar o app no site oficial e executá-lo. Iniciar o app também sobe o servidor de API em segundo plano. Depois disso, o comando ollama fica disponível no seu terminal (PowerShell / Terminal).

🐧 Linux

Instale com o script oficial de uma linha. Também é bem adequado para uso em servidor e implantações com Docker (há uma imagem Docker oficial disponível).

🔌 Confira se funciona: depois de instalar, ollama --version deve exibir uma versão. Seu primeiro modelo é só uma linha: ollama run qwen3 (a primeira execução dispara um download).

3. Comandos essenciais em um relance

São pouquíssimos comandos para aprender. Aqui estão eles, dos mais usados aos menos.

ollama run <model>

Inicia um modelo e abre o chat. Baixa antes, se não estiver presente. Saia com /bye.

ollama pull <model>

Apenas baixa um modelo (sem chat). Útil para obter com antecedência.

ollama list

Mostra os modelos baixados e seus tamanhos (ollama ls também funciona).

ollama ps

Mostra os modelos em execução no momento (carregados na memória).

ollama rm <model>

Apaga um modelo para liberar espaço em disco.

ollama serve

Inicia o servidor de API (padrão localhost:11434). Automático no Win/Mac quando o app é iniciado.

4. Como obter e escolher modelos

Especifique um modelo pelo nome + tag de tamanho. Por exemplo, llama3.2 é o tamanho padrão, e llama3.2:3b é a versão de 3B. A regra prática: escolha um tamanho que caiba na sua VRAM.

# Experimente um modelo leve (entrada)
ollama run gemma3:4b
# Um ótimo multiuso, forte em multilíngue
ollama run qwen3
# Para codar
ollama run qwen3-coder

💡 Qual modelo? Decida pelo caso de uso (geral / código / o seu idioma) e pelo tamanho. Para escolhas por linhagem e caso de uso, veja o nosso comparativo dos melhores modelos de LLM local; para a VRAM que cada tamanho exige, veja o artigo sobre requisitos de hardware. Na dúvida, comece pequeno (classe 7B).

5. Usando uma GUI (Open WebUI e outras)

Não curte o terminal? Sem problema — dá para colocar uma tela de chat (GUI) sobre o Ollama.

Open WebUI

Uma popular tela no estilo ChatGPT que você conecta ao seu Ollama local. Suporta histórico de conversas, troca de modelos e múltiplos usuários.

Quer uma GUI desde o início? LM Studio

Um único app que cuida da busca, download e chat de modelos. Ideal para quem não é engenheiro e está começando. No Apple Silicon, pode ser rápido via formato MLX.

6. Usando a API (integrando em apps)

A verdadeira força do Ollama está na sua API local. O servidor roda em localhost:11434 e, ao enviar requisições para ele, seus próprios apps, scripts e ferramentas podem usar um LLM local.

API nativa

POST localhost:11434
 /api/chat
 /api/generate

O formato próprio e simples do Ollama.

API compatível com OpenAI

POST localhost:11434
 /v1/chat/completions

Reaproveite código OpenAI existente apenas trocando o endpoint.

🔌 A compatibilidade com OpenAI é poderosa: muitas bibliotecas e ferramentas dão suporte à API da OpenAI. Aponte-as para o endpoint /v1 do Ollama e você consegue usar local em vez da nuvem — um prático plano B para quando a nuvem cair.

7. Personalizando (Modelfile, variáveis de ambiente)

Já é bastante útil de fábrica, mas vale conhecer duas coisas se você quiser ir além.

📝 Modelfile

Um arquivo de configuração parecido com um Dockerfile. Adicione um prompt de sistema e parâmetros a um modelo base para criar o "seu próprio modelo" (por exemplo, um que sempre responda em português educado).

⚙️ Variáveis de ambiente

Ajuste a operação com OLLAMA_HOST (altere o endereço de bind para usá-lo de outros dispositivos na sua LAN), OLLAMA_MODELS (caminho de armazenamento dos modelos, por exemplo, mover para outra unidade) e mais.

8. Solução de problemas

Aqui estão as travadas comuns e suas soluções, logo de cara.

Lento ou travando

Provavelmente o modelo não cabe inteiro na VRAM. Use um tamanho menor ou uma versão com quantização mais agressiva.

Travamentos por falta de memória

Reserve ao menos 8 GB de RAM para 7B e 16 GB para 13B+. Entradas longas usam ainda mais, então encurte o tamanho do contexto.

API não conecta

Verifique se ollama serve está rodando e se a porta 11434 está livre. Se o app não estiver rodando, a API também fica fora do ar.

Modelo não encontrado

Geralmente é um erro de digitação no nome ou na tag de tamanho. Confira o nome correto na lista oficial de modelos.

Resumo

O Ollama é o caminho mais rápido para entrar nos LLMs locais. Três pontos-chave:

  • Configure em minutos: instale a partir do site oficial e depois é só ollama run <model>. Pouquíssimos comandos para aprender.
  • Escolha modelos pelo tamanho: fique dentro da sua VRAM. Na dúvida, comece na classe 7B e escolha uma linhagem pelo caso de uso.
  • A API é o valor de verdade: a API compatível com OpenAI em localhost:11434 permite integrá-la aos seus próprios apps e interfaces de chat — e servir de plano B para a nuvem.

Comece digitando ollama run qwen3. A melhor forma de aprender é executá-lo enquanto confere as diferenças em relação à nuvem e como escolher um modelo.

FAQ

P. O Ollama é gratuito? Posso usá-lo comercialmente?

R. O Ollama em si é gratuito e de código aberto. No entanto, cada modelo que você roda tem a própria licença, e o uso comercial depende do modelo. Verifique os termos de cada modelo antes de usar em produto (veja a seção de licenciamento do nosso comparativo de modelos).

P. Ollama ou LM Studio — qual é melhor?

R. Para comandos, APIs, automação e integração nos seus próprios apps, Ollama; se você quer começar fácil com uma GUI, LM Studio. Ambos são gratuitos, então, na dúvida, instale os dois e compare.

P. Meus dados são enviados para fora?

R. A inferência no Ollama fica inteiramente no seu PC; sua entrada não é enviada para fora (à parte do download inicial do modelo). Essa é uma grande vantagem dos LLMs locais.

P. Posso usá-lo com código OpenAI existente?

R. Sim. O Ollama expõe uma API compatível com OpenAI em localhost:11434/v1, então, na maioria dos casos, você só muda a URL do endpoint e o nome do modelo. Prático para migrar da nuvem para local, ou como plano B.

P. Que tipo de PC eu preciso?

R. Como referência, ao menos 8 GB de RAM para modelos 7B e 16 GB+ para 13B em diante. Para mais conforto, uma GPU compatível (8 GB+ de VRAM) ou um Mac com bastante memória unificada ajuda. Veja o artigo sobre requisitos de hardware para detalhes.