Índice
- 1. O que é o Ollama? O runtime de referência para LLMs locais
- 2. Instalação (Win / Mac / Linux)
- 3. Comandos essenciais em um relance
- 4. Como obter e escolher modelos
- 5. Usando uma GUI (Open WebUI e outras)
- 6. Usando a API (integrando em apps)
- 7. Personalizando (Modelfile, variáveis de ambiente)
- 8. Solução de problemas
- Resumo
- FAQ
Ao começar com um LLM local, a ferramenta de referência para instalar primeiro é o Ollama. Ele cuida de quase toda a configuração trabalhosa para você, então dá para baixar um modelo e começar a conversar com um único comando. Este artigo percorre instalação, comandos centrais, escolha de modelos, GUIs, uso da API, personalização e solução de problemas — do começo ao fim, para iniciantes.
A conclusão antes de tudo: o Ollama é como o "Docker para LLMs". Basta digitar ollama run e ele baixa, inicia e deixa você conversar com um modelo quantizado. Execute primeiro e, depois — quando estiver à vontade —, integre-o aos seus próprios apps via API. Vamos abordar nessa ordem.
Um comando, um LLM local
— Ele cuida de quase toda a parte trabalhosa da configuração
✅ Gratuito / OSS
🖥️ Win/Mac/Linux
🔌 API local
⏱️ Configura em minutos
1. O que é o Ollama? O runtime de referência para LLMs locais
O Ollama é uma ferramenta gratuita e de código aberto para rodar LLMs locais com facilidade no seu próprio PC. Ele resolve a parte trabalhosa — baixar modelos, lidar com formatos de quantização, configurar o uso de GPU — nos bastidores, de modo que tudo o que você faz é "indicar um modelo e executá-lo".
💡 Em poucas palavras: o Ollama é o "Docker para LLMs". Baixe um modelo com ollama pull e converse com ollama run. Ele também sobe um servidor de API local, então seus próprios apps e interfaces de chat também podem chamá-lo.
Uma ferramenta parecida é o LM Studio. De forma resumida: Ollama = focado em CLI, para desenvolvedores, APIs e automação; LM Studio = focado em GUI, para quem não é engenheiro e está começando. Ambos são gratuitos e instalam em minutos. Este artigo gira em torno do Ollama (que também cobre APIs e integração); se você quer uma GUI, vá para a Seção 5.
2. Instalação (Win / Mac / Linux)
Basta pegar o instalador no site oficial, ollama.com. Veja o passo a passo por sistema operacional.
🪟 Windows / 🍎 Mac
Basta baixar o app no site oficial e executá-lo. Iniciar o app também sobe o servidor de API em segundo plano. Depois disso, o comando ollama fica disponível no seu terminal (PowerShell / Terminal).
🐧 Linux
Instale com o script oficial de uma linha. Também é bem adequado para uso em servidor e implantações com Docker (há uma imagem Docker oficial disponível).
🔌 Confira se funciona: depois de instalar, ollama --version deve exibir uma versão. Seu primeiro modelo é só uma linha: ollama run qwen3 (a primeira execução dispara um download).
3. Comandos essenciais em um relance
São pouquíssimos comandos para aprender. Aqui estão eles, dos mais usados aos menos.
ollama run <model>
Inicia um modelo e abre o chat. Baixa antes, se não estiver presente. Saia com /bye.
ollama pull <model>
Apenas baixa um modelo (sem chat). Útil para obter com antecedência.
ollama list
Mostra os modelos baixados e seus tamanhos (ollama ls também funciona).
ollama ps
Mostra os modelos em execução no momento (carregados na memória).
ollama rm <model>
Apaga um modelo para liberar espaço em disco.
ollama serve
Inicia o servidor de API (padrão localhost:11434). Automático no Win/Mac quando o app é iniciado.
4. Como obter e escolher modelos
Especifique um modelo pelo nome + tag de tamanho. Por exemplo, llama3.2 é o tamanho padrão, e llama3.2:3b é a versão de 3B. A regra prática: escolha um tamanho que caiba na sua VRAM.
💡 Qual modelo? Decida pelo caso de uso (geral / código / o seu idioma) e pelo tamanho. Para escolhas por linhagem e caso de uso, veja o nosso comparativo dos melhores modelos de LLM local; para a VRAM que cada tamanho exige, veja o artigo sobre requisitos de hardware. Na dúvida, comece pequeno (classe 7B).
5. Usando uma GUI (Open WebUI e outras)
Não curte o terminal? Sem problema — dá para colocar uma tela de chat (GUI) sobre o Ollama.
Uma popular tela no estilo ChatGPT que você conecta ao seu Ollama local. Suporta histórico de conversas, troca de modelos e múltiplos usuários.
Quer uma GUI desde o início? LM Studio
Um único app que cuida da busca, download e chat de modelos. Ideal para quem não é engenheiro e está começando. No Apple Silicon, pode ser rápido via formato MLX.
6. Usando a API (integrando em apps)
A verdadeira força do Ollama está na sua API local. O servidor roda em localhost:11434 e, ao enviar requisições para ele, seus próprios apps, scripts e ferramentas podem usar um LLM local.
API nativa
POST localhost:11434
/api/chat
/api/generate
O formato próprio e simples do Ollama.
API compatível com OpenAI
POST localhost:11434
/v1/chat/completions
Reaproveite código OpenAI existente apenas trocando o endpoint.
🔌 A compatibilidade com OpenAI é poderosa: muitas bibliotecas e ferramentas dão suporte à API da OpenAI. Aponte-as para o endpoint /v1 do Ollama e você consegue usar local em vez da nuvem — um prático plano B para quando a nuvem cair.
7. Personalizando (Modelfile, variáveis de ambiente)
Já é bastante útil de fábrica, mas vale conhecer duas coisas se você quiser ir além.
📝 Modelfile
Um arquivo de configuração parecido com um Dockerfile. Adicione um prompt de sistema e parâmetros a um modelo base para criar o "seu próprio modelo" (por exemplo, um que sempre responda em português educado).
⚙️ Variáveis de ambiente
Ajuste a operação com OLLAMA_HOST (altere o endereço de bind para usá-lo de outros dispositivos na sua LAN), OLLAMA_MODELS (caminho de armazenamento dos modelos, por exemplo, mover para outra unidade) e mais.
8. Solução de problemas
Aqui estão as travadas comuns e suas soluções, logo de cara.
Lento ou travando
Provavelmente o modelo não cabe inteiro na VRAM. Use um tamanho menor ou uma versão com quantização mais agressiva.
Travamentos por falta de memória
Reserve ao menos 8 GB de RAM para 7B e 16 GB para 13B+. Entradas longas usam ainda mais, então encurte o tamanho do contexto.
API não conecta
Verifique se ollama serve está rodando e se a porta 11434 está livre. Se o app não estiver rodando, a API também fica fora do ar.
Modelo não encontrado
Geralmente é um erro de digitação no nome ou na tag de tamanho. Confira o nome correto na lista oficial de modelos.
Resumo
O Ollama é o caminho mais rápido para entrar nos LLMs locais. Três pontos-chave:
- Configure em minutos: instale a partir do site oficial e depois é só
ollama run <model>. Pouquíssimos comandos para aprender. - Escolha modelos pelo tamanho: fique dentro da sua VRAM. Na dúvida, comece na classe 7B e escolha uma linhagem pelo caso de uso.
- A API é o valor de verdade: a API compatível com OpenAI em
localhost:11434permite integrá-la aos seus próprios apps e interfaces de chat — e servir de plano B para a nuvem.
Comece digitando ollama run qwen3. A melhor forma de aprender é executá-lo enquanto confere as diferenças em relação à nuvem e como escolher um modelo.
FAQ
P. O Ollama é gratuito? Posso usá-lo comercialmente?
R. O Ollama em si é gratuito e de código aberto. No entanto, cada modelo que você roda tem a própria licença, e o uso comercial depende do modelo. Verifique os termos de cada modelo antes de usar em produto (veja a seção de licenciamento do nosso comparativo de modelos).
P. Ollama ou LM Studio — qual é melhor?
R. Para comandos, APIs, automação e integração nos seus próprios apps, Ollama; se você quer começar fácil com uma GUI, LM Studio. Ambos são gratuitos, então, na dúvida, instale os dois e compare.
P. Meus dados são enviados para fora?
R. A inferência no Ollama fica inteiramente no seu PC; sua entrada não é enviada para fora (à parte do download inicial do modelo). Essa é uma grande vantagem dos LLMs locais.
P. Posso usá-lo com código OpenAI existente?
R. Sim. O Ollama expõe uma API compatível com OpenAI em localhost:11434/v1, então, na maioria dos casos, você só muda a URL do endpoint e o nome do modelo. Prático para migrar da nuvem para local, ou como plano B.
P. Que tipo de PC eu preciso?
R. Como referência, ao menos 8 GB de RAM para modelos 7B e 16 GB+ para 13B em diante. Para mais conforto, uma GPU compatível (8 GB+ de VRAM) ou um Mac com bastante memória unificada ajuda. Veja o artigo sobre requisitos de hardware para detalhes.