ローカルAIのモデルサイズ早見表|7B・8B・13BとQ4/Q5をPCメモリ別に解説

公開日
2026-04-30
更新日
2026-06-26
情報確認日
2026-06-26

ローカルAIのモデル選びは、モデルサイズだけでなく、GGUF形式、Q4/Q5などの量子化、PCメモリ、GPU/VRAMをセットで見る必要があります。16GBメモリなら、まず7B〜8B級のQ4/Q5前後から試すのが現実的です。32GB以上なら選択肢は広がりますが、GPUなしでは大きいモデルほど待ち時間が長くなります。

導入前に確認すること

  • Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
  • 最初は軽量モデル、短い質問、少ない同時作業から始める
  • 公式サイトの対応OS、利用規約、モデルのライセンスを確認する

モデルサイズだけで賢さを判断しない

パラメータ数が大きいほど必ず賢い、とは言えません。量子化、context length、KV cache、fine-tune、日本語性能、PCの余裕が重なって体感が決まります。

見るもの効く場所初心者向けの確認
パラメータ数知識量や表現力の目安大きいほど重い
量子化メモリと速度Q4/Q5/Q8を用途で選ぶ
context length長文保持長いほどKV cacheが重い
RAM/VRAM読み込みとGPU offloadOSと他アプリの余裕も見る

PCメモリ・VRAM別のスタート地点

環境最初の候補避けたい開始
メモリ8GB小規模モデルの軽いQ4、短い会話7B/8B以上を当然に快適と考える
メモリ16GB7B/8B級Q4_K_M前後大規模モデル、長いコンテキスト、複数アプリ併用
メモリ32GB7B/8Bから13B/14B級を段階比較最初から最大設定
VRAM 8GB前後収まる範囲をGPUオフロードVRAM容量だけでモデル全体を判断
GPUなし軽いQ4と短い入力速度をGPU搭載PCと同じに期待

これは安全側の開始目安です。必要量はモデル構造、量子化、コンテキスト長、バックエンド、同時に開くアプリで変わります。動作後に一段ずつ上げてください。

用途別に必要な余裕を考える

新しいローカルAIモデルの確認ポイント

Gemma 4 12Bのような新しいモデルを見るときは、モデル名だけで判断せず、公式情報、対応ツール、GGUF/量子化版、必要メモリ、ライセンスを分けて確認します。通常記事では長く使える基礎を扱い、時点依存の情報は更新メモで整理します。

まず結論:あなたのPCならどのモデルから始める?

必要メモリや速度は、モデル、量子化、コンテキスト長、CPU、GPU、VRAM、同時起動アプリによって変わります。この記事の表は、初心者が最初に選ぶための目安であり、「必ず動く」「必ず快適」という保証ではありません。

PC環境最初の候補避けたいもの向いている用途次に読む記事
8GB / GPUなし3B前後、軽量Q4、短文チャット13B以上、Q8、長文PDFローカルAIの雰囲気確認、短文の言い換えGPUなしPCでローカルAIは使えるか
16GB / GPUなし7B〜8B級のQ4/Q5前後14B以上、長文PDF、大量同時起動日本語チャット、短い要約、文章の下書きQ4/Q5/Q8の違い
16GB / VRAMあり7B〜8B級、余裕があればQ5いきなり大容量モデル、VRAM超過LM Studioでモデル比較、短めの文章作成LM Studioで最初に選ぶモデル
32GB / GPUなし7B〜13Bの軽量量子化速度への期待しすぎ、Q8固定文章作成、短い資料要約、複数候補の比較メモリ8GB・16GB・32GBの目安
32GB / VRAM 8GB以上7B〜14B候補、Q4/Q5比較保存容量不足、VRAM不足を無視すること日本語文章作成、少し長めの相談、モデル比較GGUFとは
64GB以上大きめモデルも検討可能CPUだけで大型モデルが快適という思い込み長めの下書き、比較検証、小規模な文書活用Janとは

モデルサイズのBとは

7B、8B、13BのBは billion の略で、モデル規模の目安です。数字が大きいほど表現力が上がる場合はありますが、そのぶんメモリ、VRAM、保存容量、回答開始までの待ち時間も増えやすくなります。

Bが大きければ必ず使いやすいわけではありません。日本語性能、用途、量子化、ライセンス、PCスペックとの相性を一緒に見る必要があります。

3B / 7B / 8B / 13B / 14B / 27B / 32Bの違い

モデルサイズは、軽さと回答力のバランスを見る入口です。初心者は、まず「自分のPCで軽く動くか」を確認し、そのあと用途に合わせて上げていくと失敗しにくくなります。

モデルサイズ重さ初心者向け度日本語文章作成要約PDF活用GPUなしPCでの現実性
3B軽い高い短文なら試しやすい短い要約向け長文PDFは厳しめ8GBでも候補になる場合あり
7B/8B中程度高い入門の中心候補短めなら試しやすい小さな資料から16GBの現実的な入口
13B/14B重め中程度品質候補になる場合あり余裕があれば比較メモリと処理時間に注意GPUなしでは待ち時間が長くなりやすい
27B/32Bかなり重い低め用途次第で候補長めにも進める場合ありPC余裕とアプリ処理が重要CPUだけでは慎重に見る
70B級以上非常に重い低い検証向け環境依存が大きい初心者の最初には不向き一般的なGPUなしPCでは現実的ではないことが多い

Q4 / Q5 / Q8をセットで見る理由

7Bや13Bはモデル規模、Q4/Q5/Q8は量子化の目安です。同じ7Bでも、Q4とQ8では保存容量や必要メモリ、回答速度が変わります。

量子化軽さ品質保存容量初心者が最初に選ぶなら
Q4軽い入門用途では十分なことが多い少なめ16GBやGPUなしなら第一候補
Q5少し重いQ4より品質寄りに見やすいQ4より増えやすいQ4で余裕があれば比較
Q6中〜重め品質寄りさらに増える最初の1本より比較候補
Q8重い情報量を残しやすい多い初心者は慎重に見る

GGUFファイル名の読み方

LM StudioやHugging Faceでファイル名を見ると、モデルサイズ、用途、形式、量子化が混ざって見えます。全部を暗記する必要はありませんが、次の表を分けて見てください。

7B
モデル規模の目安。16GB PCで軽量量子化なら入口になりやすいサイズです。
8B
7Bに近い入門候補。モデルや量子化によって重さは変わります。
13B
7B/8Bより重くなりやすく、最初から選ぶと原因を切り分けにくい場合があります。
Q4_K_M
軽さ寄りの量子化。初心者や16GB、GPUなしPCで最初に見やすい候補です。
Q5_K_M
Q4より少し品質寄りに見やすい候補。余裕があるPCで比較します。
GGUF
LM Studioなどで扱いやすいローカルAIモデルのファイル形式です。
Instruct / Chat
指示や対話向けに調整されたモデルであることを示すことが多い表記です。
  • GGUFとは - GGUF、Q4/Q5、ファイルサイズの関係を見る

メモリ8GBの場合

8GBでは、ローカルAIを試せる場合はありますが余裕はかなり少なめです。3B前後や軽量Q4を短文チャットで試し、ブラウザや重いアプリを閉じて確認してください。

13B以上、Q8、長文PDF、大量のモデル比較から始めると、アプリだけでなくWindows全体が重くなることがあります。

メモリ16GBの場合

16GBなら、7B〜8B級のGGUFモデルをQ4/Q5前後から試すのが現実的な入口です。まず短い日本語質問で速度、自然さ、PCの重さを確認してください。

長いPDFや14B以上は、モデル単体が軽く動くことを確認してから検討します。モデルサイズ、量子化、コンテキスト長を一度に欲張ると、重い原因が分かりにくくなります。

メモリ32GBの場合

32GBでは選択肢が広がり、7B/8BのQ5や13B級の軽量量子化も候補になります。ただしGPUなしでは、メモリが多くても回答速度に限界が残ります。

PDFや文書活用に進む場合も、モデルサイズだけでなく、文書量、コンテキスト長、アプリ側の検索処理を合わせて見てください。

メモリ64GB以上の場合

64GB以上なら大きめモデルも検討しやすくなります。ただし、CPUだけで大型モデルが快適に動くとは限りません。

最初は7B/8Bや13Bの軽量量子化で基準を作り、用途に必要な場合だけ27B/32B以上へ進むと判断しやすくなります。

GPUなしPCの場合

GPUなしPCではCPUと通常メモリで処理する場面が多いため、大きいモデルほど待ち時間が長くなりやすいです。軽いモデル、短い入力、Q4前後から始めてください。

ノートPC・ミニPC・中古PCの場合

ノートPCやミニPC、中古PCでは、メモリ容量だけでなく増設可否、SSD空き容量、CPU世代、冷却、VRAMの有無も確認してください。8GB固定やストレージ不足は、ローカルAI用途ではすぐ窮屈になることがあります。

PDFや長文を読ませたい場合

PDFや長文を扱う場合は、モデルサイズだけでなくメモリ、コンテキスト長、アプリ側の文書処理、検索設定も関係します。大きいモデルを選べば必ずPDF回答が良くなるわけではありません。

最初は短い資料1つで、要約、根拠確認、質問への回答を試してください。文書量を増やすのは、モデル単体が安定してからのほうが原因を切り分けやすいです。

LM Studioでモデルを選ぶ順番

LM Studioで迷ったら、人気順だけで選ばず、自分のPCで無理が少ない順に確認します。

  1. GGUF形式か確認する。
  2. 7B/8B級など最初に試しやすいモデルサイズを選ぶ。
  3. 16GBならQ4_K_M前後、32GB以上ならQ5も候補にする。
  4. ファイルサイズ、保存容量、ライセンス、日本語利用例を見る。
  5. 短い日本語質問で速度と自然さを確認してから、別モデルや長文へ進む。

モデルサイズ選びでよくある失敗

次に読む記事

このページはモデルサイズの中核ハブです。GGUF、量子化、GPUなし、メモリ、中古PC、LM Studioのトラブル、Janとの比較入口へ役割ごとに進んでください。

よくある質問

16GBメモリならどのモデルサイズから始めればいいですか?

まず7B〜8B級のGGUFモデルをQ4_K_M前後、余裕があればQ5_K_M前後で試すのが現実的です。短い日本語質問で速度とPCの重さを確認してから、長文やPDF活用へ進んでください。

7Bと13Bは何が違いますか?

どちらもモデル規模の目安ですが、13Bは7Bより重くなりやすいです。回答品質が上がる場合もありますが、必要メモリ、保存容量、待ち時間も増えやすいため、初心者は7B/8B級から始めると原因を切り分けやすいです。

Q4とQ5はどちらを選べばいいですか?

初心者やGPUなしPCでは、まずQ4_K_M前後が無難です。Q4で軽く動くことを確認してから、同じ質問でQ5_K_Mを比較すると判断しやすくなります。

GPUなしPCでも13B以上を使えますか?

使える場合もありますが、待ち時間が長くなりやすく、PC全体が重くなることがあります。GPUなしPCでは7B/8B級の軽量量子化から始め、13B以上は余裕がある場合の比較候補として見てください。

PDFや長文を読ませるなら大きいモデルを選ぶべきですか?

モデルサイズだけでは決まりません。メモリ、コンテキスト長、文書量、PDFの文字抽出、アプリ側の検索処理も関係します。最初は短い資料でモデル単体の安定性を確認してください。

Q8は品質が高いなら最初から選んだ方がいいですか?

初心者の最初の1本では慎重に見てください。Q8は重くなりやすく、16GBやGPUなし環境では回答開始が遅い、固まるように見える原因になる場合があります。

ローカルAIモデルは商用利用できますか?

モデルによって異なります。商用利用は、使うモデルのライセンス、ツール、API、会社や案件のルールを確認してください。この記事では商用利用可否を断定しません。

次に読むおすすめルート

GPUなし・低スペックPCの人

軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。

  1. ローカルAI用PCスペックの見方
  2. GPUなしPCで使える範囲を整理
  3. 古いWindows PCでLM Studioを使うなら
  4. 中古PCでローカルAIは使える?
  5. ミニPCでローカルAIは使える?
  6. メモリ別に始める前に知ること
  7. GPUオフロードとは
  8. Gemma 4 12Bの更新メモ
  9. 重い・動かないときの確認ポイント
  10. 診断ページ

あなたはどのタイプ?

関連チェック先

  • Sustainable LLM Inference for Edge AI - Raspberry Pi 4 4GB RAM上で、Ollama library由来の量子化LLMを速度、精度、電力の観点から評価した研究です。
  • Which Quantization Should I Use? - llama.cpp量子化形式をLlama-3.1-8B-Instructで統一評価した研究です。単一モデル評価として扱います。
  • ggml GGUF specification - GGUFがtensorとmetadataを含む推論用ファイル形式であることを確認できます。
  • ggml-org/llama.cpp - GGUFモデルをCPU/GPUで実行する代表的な実装です。
  • LM Studio Docs - LM Studioのアプリ、ローカルモデル、GGUF実行、オフライン利用、API機能の公式説明です。
  • Ollama Docs - Ollamaの公式ドキュメントです。
  • Hugging Face Models - モデルカード、ライセンス、配布元、intended useを確認する入口です。

関連ツール

比較表を見る / 最初に検討しやすいツールを確認する