ローカルLLMを始めるとき、最初に入れる定番ツールが Ollama(オラマ) だ。難しい環境構築をほぼ肩代わりしてくれて、コマンド1つでモデルをダウンロードして対話できる。本記事は、インストールから基本コマンド、モデルの選び方、GUI、API活用、カスタマイズ、つまずき対処までを初心者向けに一気通貫でまとめる。

結論を先に言うと、Ollamaは「LLM版のDocker」のような存在だ。`ollama run` と打つだけで、量子化済みモデルの取得・起動・対話が完結する。まずは動かし、慣れたらAPIで自作アプリに組み込む——その流れで解説する。

LOCAL LLM RUNTIME

コマンド1つで、ローカルLLM

— 環境構築の難しさを、ほぼ肩代わり

$ ollama pull qwen3
$ ollama run qwen3
>>> こんにちは!何ができますか?

✅ 無料・OSS

🖥️ Win/Mac/Linux

🔌 ローカルAPI

⏱️ 数分で導入

1. Ollamaとは?——ローカルLLMの定番ランタイム

Ollama は、ローカルLLMを自分のPCで手軽に動かすための無料・オープンソースのツールだ。モデルのダウンロード、量子化形式の扱い、GPUの利用設定といった面倒を裏で処理し、ユーザーは「モデル名を指定して走らせる」だけでよい。

💡 ひとことで:Ollamaは「LLM版のDocker」。ollama pull でモデルを取得し、ollama run で対話。さらにローカルにAPIサーバーが立つので、自作アプリやチャットUIからも呼び出せる。

似たツールに LM Studio がある。ざっくり、Ollama=CLI(コマンド)中心で開発者・API・自動化向きLM Studio=GUI中心で非エンジニアの入門向き。どちらも無料で数分で入る。本記事はAPIや組み込みにも触れるOllamaを軸に解説する(GUIが欲しい人は第5章へ)。

2. インストール(Win / Mac / Linux)

公式サイト ollama.com からインストーラを入手するだけ。OSごとの流れはこうだ。

🪟 Windows / 🍎 Mac

公式サイトからアプリをダウンロードして実行するだけ。アプリを起動すると裏でAPIサーバーも自動で立つ。あとはターミナル(PowerShell / 端末)で ollama コマンドが使える。

🐧 Linux

公式のインストールスクリプト1行で導入できる。サーバー用途やDockerでの運用にも向く(公式Dockerイメージあり)。

🔌 動作確認:インストール後、ターミナルで ollama --version が表示されればOK。最初のモデルは ollama run qwen3 のように打つだけ(初回はダウンロードが走る)。

3. 基本コマンド早見

覚えるコマンドはごく少ない。よく使う順に並べる。

ollama run <model>

モデルを起動して対話。未取得なら自動でダウンロード。終了は /bye

ollama pull <model>

モデルをダウンロードだけ行う(対話はしない)。事前取得に便利。

ollama list

取得済みモデルの一覧とサイズを表示(ollama ls でも可)。

ollama ps

いま起動中(メモリに乗っている)モデルを表示。

ollama rm <model>

モデルを削除してディスクを空ける。

ollama serve

APIサーバーを起動(既定 localhost:11434)。Win/Macはアプリ起動時に自動。

4. モデルの入れ方・選び方

モデルは名前+サイズタグで指定する。例えば llama3.2 は標準サイズ、llama3.2:3b は3B版を指す。自分のVRAMに乗るサイズを選ぶのが鉄則だ。

# 軽量モデルを試す(入門)
ollama run gemma3:4b
# 日本語・総合力で定番
ollama run qwen3
# コーディング用途
ollama run qwen3-coder

💡 どのモデルを選ぶ?:用途(総合/コーディング/日本語)とサイズで決める。系統別・用途別の選び方は ローカルLLMおすすめモデル徹底比較 に、必要VRAMの早見は 必要スペックの記事 にまとめている。迷ったら小さめ(7B級)から。

5. GUIで使う(Open WebUI ほか)

「ターミナルは苦手」という人も大丈夫。Ollamaにチャット画面(GUI)を被せる方法がある。

Open WebUI

ChatGPT風の画面をローカルのOllamaに接続して使える定番。会話履歴・モデル切替・複数ユーザーにも対応。

最初からGUIが欲しいなら LM Studio

アプリ単体でモデル検索・DL・チャットが完結。非エンジニアの入門に最適。Apple Silicon では MLX 形式で高速なことも。

6. API活用(アプリに組み込む)

Ollamaの真価はローカルAPIにある。サーバーが localhost:11434 で動いており、ここに対してリクエストを投げれば、自作アプリ・スクリプト・ツールからローカルLLMを使える。

ネイティブAPI

POST localhost:11434
 /api/chat
 /api/generate

Ollama独自のシンプルな形式。

OpenAI互換API

POST localhost:11434
 /v1/chat/completions

既存のOpenAI向けコードの接続先を変えるだけで流用できる。

🔌 OpenAI互換が強力:多くのライブラリ・ツールはOpenAI APIに対応している。Ollamaの /v1 エンドポイントを指定すれば、クラウドの代わりにローカルを使う構成にできる。クラウド停止時のフォールバックとしても有効だ。

7. カスタマイズ(Modelfile・環境変数)

そのままでも十分使えるが、もう一歩踏み込むなら2つ覚えておくとよい。

📝 Modelfile

Dockerfileのような設定ファイル。ベースモデルにシステムプロンプトやパラメータを足して「自分専用モデル」を作れる(例:常に丁寧な日本語で答える等)。

⚙️ 環境変数

OLLAMA_HOST(待受アドレス変更=LAN内の他端末から使う)、OLLAMA_MODELS(モデル保存先=別ドライブに逃がす)など運用を調整できる。

8. つまずきの対処

よくある詰まりどころと対処を先に押さえておこう。

遅い・固まる

モデルがVRAMに乗り切っていない可能性大。一段小さいモデルか、より強い量子化版にする。

メモリ不足で落ちる

7Bでも最低8GB RAM、13B以上は16GB目安。長文を扱うとさらに増えるので文脈長を短く。

APIに繋がらない

ollama serve が動いているか、ポート 11434 が空いているか確認。アプリ未起動だとAPIも止まる。

モデルが見つからない

モデル名・サイズタグのスペル違いが多い。公式のモデル一覧で正しい名前を確認する。

まとめ

Ollamaは、ローカルLLMを始める一番の近道だ。要点は3つ。

  • 導入は数分:公式から入れて ollama run <model> だけ。覚えるコマンドはごく少数。
  • モデルはサイズで選ぶ:自分のVRAMに乗る範囲で。迷ったら7B級から、用途で系統を選ぶ。
  • API=真価localhost:11434 のOpenAI互換APIで、自作アプリやチャットUIに組み込める。クラウドのフォールバックにも。

まずは ollama run qwen3 を打ってみよう。動かしながら、クラウドとの違いモデルの選び方を確かめていくのが、いちばん身につく進め方だ。

FAQ

Q. Ollamaは無料?商用利用できる?

A. Ollama自体は無料・オープンソースです。ただし動かすモデル側にそれぞれライセンスがあり、商用可否はモデルごとに異なります。製品利用の際は各モデルの規約を確認してください(詳細はモデル比較記事のライセンス章)。

Q. OllamaとLM Studio、どっちがいい?

A. コマンドやAPI・自動化・自作アプリへの組み込みなら Ollama、最初からGUIで手軽に試したいなら LM Studio が向きます。両方無料なので、迷ったら両方入れて比べてもOKです。

Q. データは外部に送られない?

A. Ollamaでの推論は自分のPC内で完結し、入力が外部に送信されることはありません(モデルの初回ダウンロードを除く)。これがローカルLLMの大きな利点です。

Q. 既存のOpenAI向けコードで使える?

A. はい。Ollamaは localhost:11434/v1OpenAI互換APIを提供するので、多くの場合は接続先URLとモデル名を変えるだけで流用できます。クラウドからローカルへの切替・フォールバックに便利です。

Q. どのくらいのPCが必要?

A. 目安は7Bモデルで最低8GB RAM、13B以上で16GB以上。快適に使うなら対応GPU(VRAM 8GB〜)か、統合メモリ多めのMacが有利です。詳しくは必要スペックの記事へ。