LoRAとは?AIを少ない追加学習でカスタマイズする仕組みを初心者向けに
巨大なAIモデルを丸ごと学習し直すのは高すぎる、でも自分用に少しだけ調整したい、その願いを叶えるのがLoRA(Low-Rank Adaptation/低ランク適応)。元のモデルはそのまま凍結し、ごく小さな追加部品(アダプタ)だけを学習することで学習するパラメータを約90%減らす。LoRAはファインチューニングを劇的に安く速くする技術であり、Stable Diffusionなどの画像生成でキャラや画風を足す小さなファイルとしても大人気。本記事は仕組みをパッチ(あて布)のたとえで解説する。LoRAはパラメータ効率の良いファインチューニング(PEFT)の代表格で、核心は巨大な元の重みを一切変えず凍結し各層に小さな追加行列を差し込みそこだけ学習する(W = W₀ + BA、W₀は凍結、BAが小さな追加分)。AIの調整は実はそんなに大きく変える必要がない=低ランクで足りるという発見が土台。メリットは学習パラメータ約90%減(GPT-3規模で従来比1万分の1との報告)・省メモリ高速安い(GPU記憶約3分の1)・推論はアダプタを統合すればレイテンシ増なし・過学習しにくい。最大の強みはアダプタの付け替えで、土台共通のまま用途ごとに数MBのLoRAを差し替え瞬時に切り替えられる。多くの人が最初に触れるのは画像生成で、Stable Diffusionでは特定キャラ・画風・被写体を覚えた小さなLoRAが無数に共有される(画風を足す、キャラを覚えさせる、軽く共有しやすい)。QLoRAは量子化と組み合わせ土台を4ビットに圧縮したままLoRAを学習し、標準LoRAよりさらにメモリ約4分の1、家庭用GPU(場合によりCPU)でも巨大モデルを微調整でき精度低下もごくわずか。フルファインチューニング(全パラメータ学習)との違いは学習する重み・コスト・成果物・向く場面で、多くの実務ではまずLoRAで十分。土台はそのまま味付けは小さく、が要点。数値は各種公表資料の引用で傾向の参考。