ローカルAIのモデルサイズ早見表|7B・8B・13BとQ4/Q5をPCメモリ別に解説
- 公開日
- 2026-04-30
- 更新日
- 2026-06-26
- 情報確認日
- 2026-06-26
ローカルAIのモデル選びは、モデルサイズだけでなく、GGUF形式、Q4/Q5などの量子化、PCメモリ、GPU/VRAMをセットで見る必要があります。16GBメモリなら、まず7B〜8B級のQ4/Q5前後から試すのが現実的です。32GB以上なら選択肢は広がりますが、GPUなしでは大きいモデルほど待ち時間が長くなります。
導入前に確認すること
- Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
- 最初は軽量モデル、短い質問、少ない同時作業から始める
- 公式サイトの対応OS、利用規約、モデルのライセンスを確認する
モデルサイズだけで賢さを判断しない
パラメータ数が大きいほど必ず賢い、とは言えません。量子化、context length、KV cache、fine-tune、日本語性能、PCの余裕が重なって体感が決まります。
| 見るもの | 効く場所 | 初心者向けの確認 |
|---|---|---|
| パラメータ数 | 知識量や表現力の目安 | 大きいほど重い |
| 量子化 | メモリと速度 | Q4/Q5/Q8を用途で選ぶ |
| context length | 長文保持 | 長いほどKV cacheが重い |
| RAM/VRAM | 読み込みとGPU offload | OSと他アプリの余裕も見る |
- 小型LLM研究ガイド - 速度・メモリ・精度・電力・プライバシーをまとめて確認する
- Q4/Q5/Q8研究ガイド - 量子化の犠牲と選び方を深く読む
- GGUFモデル選び診断 - PC条件から最初の量子化モデルを絞る
PCメモリ・VRAM別のスタート地点
| 環境 | 最初の候補 | 避けたい開始 |
|---|---|---|
| メモリ8GB | 小規模モデルの軽いQ4、短い会話 | 7B/8B以上を当然に快適と考える |
| メモリ16GB | 7B/8B級Q4_K_M前後 | 大規模モデル、長いコンテキスト、複数アプリ併用 |
| メモリ32GB | 7B/8Bから13B/14B級を段階比較 | 最初から最大設定 |
| VRAM 8GB前後 | 収まる範囲をGPUオフロード | VRAM容量だけでモデル全体を判断 |
| GPUなし | 軽いQ4と短い入力 | 速度をGPU搭載PCと同じに期待 |
これは安全側の開始目安です。必要量はモデル構造、量子化、コンテキスト長、バックエンド、同時に開くアプリで変わります。動作後に一段ずつ上げてください。
用途別に必要な余裕を考える
モデル単体と短い履歴なら、基準モデルを作りやすい用途です。
モデルだけでなく入力トークンやRAGの文書断片で負荷が増えます。
モデル実行側とクライアント側を同時に動かすメモリを残します。
新しいローカルAIモデルの確認ポイント
Gemma 4 12Bのような新しいモデルを見るときは、モデル名だけで判断せず、公式情報、対応ツール、GGUF/量子化版、必要メモリ、ライセンスを分けて確認します。通常記事では長く使える基礎を扱い、時点依存の情報は更新メモで整理します。
- ローカルAI更新メモ - 新しいモデル・ツール更新を公開時点の情報として確認する
- Gemma 4 12Bの更新メモ - 12B級モデルをWindows PCで試す前の確認ポイントを見る
まず結論:あなたのPCならどのモデルから始める?
必要メモリや速度は、モデル、量子化、コンテキスト長、CPU、GPU、VRAM、同時起動アプリによって変わります。この記事の表は、初心者が最初に選ぶための目安であり、「必ず動く」「必ず快適」という保証ではありません。
| PC環境 | 最初の候補 | 避けたいもの | 向いている用途 | 次に読む記事 |
|---|---|---|---|---|
| 8GB / GPUなし | 3B前後、軽量Q4、短文チャット | 13B以上、Q8、長文PDF | ローカルAIの雰囲気確認、短文の言い換え | GPUなしPCでローカルAIは使えるか |
| 16GB / GPUなし | 7B〜8B級のQ4/Q5前後 | 14B以上、長文PDF、大量同時起動 | 日本語チャット、短い要約、文章の下書き | Q4/Q5/Q8の違い |
| 16GB / VRAMあり | 7B〜8B級、余裕があればQ5 | いきなり大容量モデル、VRAM超過 | LM Studioでモデル比較、短めの文章作成 | LM Studioで最初に選ぶモデル |
| 32GB / GPUなし | 7B〜13Bの軽量量子化 | 速度への期待しすぎ、Q8固定 | 文章作成、短い資料要約、複数候補の比較 | メモリ8GB・16GB・32GBの目安 |
| 32GB / VRAM 8GB以上 | 7B〜14B候補、Q4/Q5比較 | 保存容量不足、VRAM不足を無視すること | 日本語文章作成、少し長めの相談、モデル比較 | GGUFとは |
| 64GB以上 | 大きめモデルも検討可能 | CPUだけで大型モデルが快適という思い込み | 長めの下書き、比較検証、小規模な文書活用 | Janとは |
モデルサイズのBとは
7B、8B、13BのBは billion の略で、モデル規模の目安です。数字が大きいほど表現力が上がる場合はありますが、そのぶんメモリ、VRAM、保存容量、回答開始までの待ち時間も増えやすくなります。
Bが大きければ必ず使いやすいわけではありません。日本語性能、用途、量子化、ライセンス、PCスペックとの相性を一緒に見る必要があります。
3B / 7B / 8B / 13B / 14B / 27B / 32Bの違い
モデルサイズは、軽さと回答力のバランスを見る入口です。初心者は、まず「自分のPCで軽く動くか」を確認し、そのあと用途に合わせて上げていくと失敗しにくくなります。
| モデルサイズ | 重さ | 初心者向け度 | 日本語文章作成 | 要約 | PDF活用 | GPUなしPCでの現実性 |
|---|---|---|---|---|---|---|
| 3B | 軽い | 高い | 短文なら試しやすい | 短い要約向け | 長文PDFは厳しめ | 8GBでも候補になる場合あり |
| 7B/8B | 中程度 | 高い | 入門の中心候補 | 短めなら試しやすい | 小さな資料から | 16GBの現実的な入口 |
| 13B/14B | 重め | 中程度 | 品質候補になる場合あり | 余裕があれば比較 | メモリと処理時間に注意 | GPUなしでは待ち時間が長くなりやすい |
| 27B/32B | かなり重い | 低め | 用途次第で候補 | 長めにも進める場合あり | PC余裕とアプリ処理が重要 | CPUだけでは慎重に見る |
| 70B級以上 | 非常に重い | 低い | 検証向け | 環境依存が大きい | 初心者の最初には不向き | 一般的なGPUなしPCでは現実的ではないことが多い |
Q4 / Q5 / Q8をセットで見る理由
7Bや13Bはモデル規模、Q4/Q5/Q8は量子化の目安です。同じ7Bでも、Q4とQ8では保存容量や必要メモリ、回答速度が変わります。
| 量子化 | 軽さ | 品質 | 保存容量 | 初心者が最初に選ぶなら |
|---|---|---|---|---|
| Q4 | 軽い | 入門用途では十分なことが多い | 少なめ | 16GBやGPUなしなら第一候補 |
| Q5 | 少し重い | Q4より品質寄りに見やすい | Q4より増えやすい | Q4で余裕があれば比較 |
| Q6 | 中〜重め | 品質寄り | さらに増える | 最初の1本より比較候補 |
| Q8 | 重い | 情報量を残しやすい | 多い | 初心者は慎重に見る |
- Q4/Q5/Q8の違い - 量子化だけを詳しく確認する
GGUFファイル名の読み方
LM StudioやHugging Faceでファイル名を見ると、モデルサイズ、用途、形式、量子化が混ざって見えます。全部を暗記する必要はありませんが、次の表を分けて見てください。
- 7B
- モデル規模の目安。16GB PCで軽量量子化なら入口になりやすいサイズです。
- 8B
- 7Bに近い入門候補。モデルや量子化によって重さは変わります。
- 13B
- 7B/8Bより重くなりやすく、最初から選ぶと原因を切り分けにくい場合があります。
- Q4_K_M
- 軽さ寄りの量子化。初心者や16GB、GPUなしPCで最初に見やすい候補です。
- Q5_K_M
- Q4より少し品質寄りに見やすい候補。余裕があるPCで比較します。
- GGUF
- LM Studioなどで扱いやすいローカルAIモデルのファイル形式です。
- Instruct / Chat
- 指示や対話向けに調整されたモデルであることを示すことが多い表記です。
- GGUFとは - GGUF、Q4/Q5、ファイルサイズの関係を見る
メモリ8GBの場合
8GBでは、ローカルAIを試せる場合はありますが余裕はかなり少なめです。3B前後や軽量Q4を短文チャットで試し、ブラウザや重いアプリを閉じて確認してください。
13B以上、Q8、長文PDF、大量のモデル比較から始めると、アプリだけでなくWindows全体が重くなることがあります。
メモリ16GBの場合
16GBなら、7B〜8B級のGGUFモデルをQ4/Q5前後から試すのが現実的な入口です。まず短い日本語質問で速度、自然さ、PCの重さを確認してください。
長いPDFや14B以上は、モデル単体が軽く動くことを確認してから検討します。モデルサイズ、量子化、コンテキスト長を一度に欲張ると、重い原因が分かりにくくなります。
メモリ32GBの場合
32GBでは選択肢が広がり、7B/8BのQ5や13B級の軽量量子化も候補になります。ただしGPUなしでは、メモリが多くても回答速度に限界が残ります。
PDFや文書活用に進む場合も、モデルサイズだけでなく、文書量、コンテキスト長、アプリ側の検索処理を合わせて見てください。
メモリ64GB以上の場合
64GB以上なら大きめモデルも検討しやすくなります。ただし、CPUだけで大型モデルが快適に動くとは限りません。
最初は7B/8Bや13Bの軽量量子化で基準を作り、用途に必要な場合だけ27B/32B以上へ進むと判断しやすくなります。
GPUなしPCの場合
GPUなしPCではCPUと通常メモリで処理する場面が多いため、大きいモデルほど待ち時間が長くなりやすいです。軽いモデル、短い入力、Q4前後から始めてください。
- GPUなしPCでローカルAIは使えるか - CPU実行や内蔵GPU環境の現実ラインを見る
ノートPC・ミニPC・中古PCの場合
ノートPCやミニPC、中古PCでは、メモリ容量だけでなく増設可否、SSD空き容量、CPU世代、冷却、VRAMの有無も確認してください。8GB固定やストレージ不足は、ローカルAI用途ではすぐ窮屈になることがあります。
- 中古PCでローカルAIは使える? - 購入前に見るメモリ、SSD、冷却を確認する
- ミニPCでローカルAIは使える? - 小型PCで注意したい制約を見る
- LM Studio用PC購入前チェッカー - 中古PCやミニPCのスペックを入力して確認する
PDFや長文を読ませたい場合
PDFや長文を扱う場合は、モデルサイズだけでなくメモリ、コンテキスト長、アプリ側の文書処理、検索設定も関係します。大きいモデルを選べば必ずPDF回答が良くなるわけではありません。
最初は短い資料1つで、要約、根拠確認、質問への回答を試してください。文書量を増やすのは、モデル単体が安定してからのほうが原因を切り分けやすいです。
- AnythingLLMでPDFを読むには - PDFや資料をローカルAIで扱う前の準備を見る
- AnythingLLMで期待通りに答えない理由 - PDF回答がずれる原因を確認する
LM Studioでモデルを選ぶ順番
LM Studioで迷ったら、人気順だけで選ばず、自分のPCで無理が少ない順に確認します。
- GGUF形式か確認する。
- 7B/8B級など最初に試しやすいモデルサイズを選ぶ。
- 16GBならQ4_K_M前後、32GB以上ならQ5も候補にする。
- ファイルサイズ、保存容量、ライセンス、日本語利用例を見る。
- 短い日本語質問で速度と自然さを確認してから、別モデルや長文へ進む。
- LM Studioで最初に選ぶモデル - 最初の1本を選ぶ流れを見る
- LM Studioの基本情報 - 画面操作でモデルを動かす入口を見る
モデルサイズ選びでよくある失敗
用途、日本語性能、ライセンス、量子化との相性も見ます。
品質寄りに見えても重くなりやすく、初心者は原因を切り分けにくくなります。
待ち時間が長くなりやすいため、7B/8B級の軽量量子化から始めます。
文書量、コンテキスト長、アプリ側の処理も影響します。
モデル、ツール、API、会社や案件のルールを確認してください。
次に読む記事
このページはモデルサイズの中核ハブです。GGUF、量子化、GPUなし、メモリ、中古PC、LM Studioのトラブル、Janとの比較入口へ役割ごとに進んでください。
- GGUFとは - LM Studioで見るGGUF、Q4/Q5、ファイル名を整理する
- Q4/Q5/Q8の違い - 量子化モデルの選び方を確認する
- GPUなしPCでローカルAIは使えるか - GPUなし・CPU実行の現実ラインを見る
- メモリ8GB・16GB・32GBで始める前に知ること - PCメモリ別のできることを確認する
- LM Studioが途中で止まる原因 - 重い、止まる、固まる原因を確認する
- コンテキスト長とは - 長文・PDF・会話履歴が重くなる理由を見る
- PDF・文書チャットの使い分け - 長文やPDFを扱う方法を用途別に選ぶ
- GPUオフロードとは - LM StudioでCPUばかり使われる時の確認ポイントを見る
- ローカルAIをAPIで使う方法 - モデルをアプリやスクリプトから呼び出す前に確認する
- 中古PCでローカルAIは使える? - 買う前に見るスペックを確認する
- Janとは - LM Studioの次に比較したいデスクトップアプリを見る
- Ollamaとは - API連携やコマンド管理向けの入口を見る
- AnythingLLMとは - PDFや文書活用向けの入口を見る
よくある質問
16GBメモリならどのモデルサイズから始めればいいですか?
まず7B〜8B級のGGUFモデルをQ4_K_M前後、余裕があればQ5_K_M前後で試すのが現実的です。短い日本語質問で速度とPCの重さを確認してから、長文やPDF活用へ進んでください。
7Bと13Bは何が違いますか?
どちらもモデル規模の目安ですが、13Bは7Bより重くなりやすいです。回答品質が上がる場合もありますが、必要メモリ、保存容量、待ち時間も増えやすいため、初心者は7B/8B級から始めると原因を切り分けやすいです。
Q4とQ5はどちらを選べばいいですか?
初心者やGPUなしPCでは、まずQ4_K_M前後が無難です。Q4で軽く動くことを確認してから、同じ質問でQ5_K_Mを比較すると判断しやすくなります。
GPUなしPCでも13B以上を使えますか?
使える場合もありますが、待ち時間が長くなりやすく、PC全体が重くなることがあります。GPUなしPCでは7B/8B級の軽量量子化から始め、13B以上は余裕がある場合の比較候補として見てください。
PDFや長文を読ませるなら大きいモデルを選ぶべきですか?
モデルサイズだけでは決まりません。メモリ、コンテキスト長、文書量、PDFの文字抽出、アプリ側の検索処理も関係します。最初は短い資料でモデル単体の安定性を確認してください。
Q8は品質が高いなら最初から選んだ方がいいですか?
初心者の最初の1本では慎重に見てください。Q8は重くなりやすく、16GBやGPUなし環境では回答開始が遅い、固まるように見える原因になる場合があります。
ローカルAIモデルは商用利用できますか?
モデルによって異なります。商用利用は、使うモデルのライセンス、ツール、API、会社や案件のルールを確認してください。この記事では商用利用可否を断定しません。
次に読むおすすめルート
GPUなし・低スペックPCの人
軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
- ローカルAI用PCスペックの見方
- GPUなしPCで使える範囲を整理
- 古いWindows PCでLM Studioを使うなら
- 中古PCでローカルAIは使える?
- ミニPCでローカルAIは使える?
- メモリ別に始める前に知ること
- GPUオフロードとは
- Gemma 4 12Bの更新メモ
- 重い・動かないときの確認ポイント
- 診断ページ
あなたはどのタイプ?
- 初めてローカルAIを触る人 - まず全体像をつかみ、LM StudioとOllamaの違い、モデルサイズの考え方を順番に確認します。
- GPUなし・低スペックPCの人 - 軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
- PDFや資料を読ませたい人 - 先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。
- 開発・API連携したい人 - LM StudioとOllamaの違いを確認し、API、長文処理、RAGまで段階的に進みます。
関連チェック先
- Sustainable LLM Inference for Edge AI - Raspberry Pi 4 4GB RAM上で、Ollama library由来の量子化LLMを速度、精度、電力の観点から評価した研究です。
- Which Quantization Should I Use? - llama.cpp量子化形式をLlama-3.1-8B-Instructで統一評価した研究です。単一モデル評価として扱います。
- ggml GGUF specification - GGUFがtensorとmetadataを含む推論用ファイル形式であることを確認できます。
- ggml-org/llama.cpp - GGUFモデルをCPU/GPUで実行する代表的な実装です。
- LM Studio Docs - LM Studioのアプリ、ローカルモデル、GGUF実行、オフライン利用、API機能の公式説明です。
- Ollama Docs - Ollamaの公式ドキュメントです。
- Hugging Face Models - モデルカード、ライセンス、配布元、intended useを確認する入口です。