LM StudioのGPUオフロードとは?CPU 100%・GPU使用率が低い時の確認
- 公開日
- 2026-06-06
- 更新日
- 2026-06-26
- 情報確認日
- 2026-06-26
GPUオフロードは、モデル処理の一部または多くをGPUへ担当させる考え方です。値を上げれば必ず速くなるわけではなく、VRAMに収まるか、モデルサイズ、量子化、コンテキスト長、利用するバックエンドを合わせて確認します。
導入前に確認すること
- Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
- 最初は軽量モデル、短い質問、少ない同時作業から始める
- 公式サイトの対応OS、利用規約、モデルのライセンスを確認する
GPU offloadで速くなる場合と残るボトルネック
GPU offloadは、モデルの一部をGPUへ載せて速度改善を狙う設定です。ただしVRAM不足、CPU/RAM、context length、冷却が残ると、期待どおり速くならないことがあります。
| 症状 | 疑うもの | 次の確認 |
|---|---|---|
| GPU使用率が低い | offload設定、対応GPU | 少しずつlayerを調整 |
| VRAM不足 | モデルが重い、Q8、大きいcontext | Q4/Q5や短いcontextへ下げる |
| CPU 100% | CPU側処理が残る | モデルサイズと同時起動アプリを確認 |
| 発熱で遅い | 冷却/電力制限 | 短時間テストと長時間テストを分ける |
- 電力効率ガイド - GPUとCPUの効率を読む
Hermes Desktopでつながらない時の読み順
Hermes Desktopの設定を何度も変える前に、症状別ハブで provider 側、base URL、model ID、API key、PC負荷を分けて確認してください。
- Hermes Desktopトラブル解決ハブ - connection refused、model not found、401/429、timeout、WSL2を症状別に切り分ける
- Hermes Desktop接続トラブル診断 - 数問選んで最初に疑う原因と読む記事を確認する
GPUオフロードを触る前に見る表
CPU 100%・GPU 5%でも、直ちに設定ミスとは限りません。モデルの一部だけがGPUに載っている、タスクマネージャーで3Dグラフを見ている、前処理やデータ転送をCPUが担当している場合があります。使用率だけでなく、専用GPUメモリ、LM Studioのロード設定、生成速度を合わせて見ます。
| 症状 | 先に変えるもの | 理由 |
|---|---|---|
| ロード時に失敗 | モデルサイズ・量子化を下げる | 推論以前にRAM/VRAMへ収まっていない |
| VRAMが上限近い | Offloadを少し下げる | 上げすぎると確保失敗や不安定化が起きる |
| CPU 100%で遅い | 軽いQ4、Context Lengthを下げる | 計算量とKVキャッシュを減らせる |
| GPU 0~数%に見える | 専用GPUメモリとCompute系グラフを見る | 3D使用率だけでは推論負荷を判断しにくい |
| GPUなし・内蔵GPU | 7B/8B未満も含む軽量候補、短文用途 | 共有メモリ・帯域・冷却の制約が大きい |
30秒結論:CPU使用率とGPU使用率だけで判断しない
GPU offload、VRAM、モデルロード設定を確認します。
3DグラフだけでなくCompute系と専用GPUメモリを見ます。
モデル、コンテキスト、offload量を下げて安定性を見ます。
GPUオフロードとは
ローカルLLMの計算をCPUだけで行うのではなく、対応する処理をGPUへ移すことです。GPUが対応し、VRAMに余裕があり、実行環境が正しく認識している場合は、応答速度が改善することがあります。
一方、モデル全体や実行時データがVRAMに収まらない場合は、一部をCPUや共有メモリ側で扱う構成になります。オフロード数を増やしすぎると、ロード失敗、不安定化、メモリ不足につながる場合があります。
オフロード数を上げると何が変わるか
| 変更 | 期待できること | 注意 |
|---|---|---|
| GPUへ載せる量を増やす | CPU側の計算を減らしやすい | VRAM使用量が増える |
| モデルを小さくする | VRAMへ載せやすくなる | モデル能力は変わる |
| Q4へ下げる | 必要メモリを減らしやすい | 量子化による品質差がある |
| コンテキストを短くする | 実行時負荷を減らしやすい | 一度に扱える文章量が減る |
GPU使用率が低く見える理由
- Windowsタスクマネージャーが3Dグラフを表示し、計算用エンジンを見ていない。
- 生成は短い処理の繰り返しで、瞬間的な使用率を見逃している。
- モデルの一部しかGPUへオフロードされていない。
- プロンプト処理と生成でCPU/GPUの負荷配分が異なる。
- VRAM不足でCPU側や共有メモリ側の処理が増えている。
遅い時に確認する順番
- 短い質問へ戻し、トークン生成が本当に遅いか確認する。
- モデル規模、GGUF量子化、ファイル容量を確認する。
- LM StudioでGPUが認識され、offload設定が有効か確認する。
- 専用GPUメモリ使用量とPCメモリ使用量を見る。
- offload量を段階的に変更し、ロード失敗や速度を比較する。
- コンテキスト長を下げ、他の重いアプリを閉じる。
Windowsタスクマネージャーで見る時の注意
GPU使用率の1つの数字だけでは、LLM計算がGPUへ載っているか判断できません。GPUのグラフ種類を切り替え、Compute系の利用率、専用GPUメモリ、共有GPUメモリを確認します。LM Studio側のロード情報やログも合わせて見てください。
16GBメモリ・GPUなし・ミニPCの注意
| 環境 | 現実的な対処 |
|---|---|
| メモリ16GB | 7B/8B級Q4、短いコンテキスト、他アプリを閉じる |
| GPUなし | CPU推論前提で軽いモデルと短い入力を使う |
| 内蔵GPU | 共有メモリを使うため、PCメモリ全体の余裕を見る |
| ミニPC | 冷却、電力制限、増設可否、長時間負荷に注意する |
次に確認する記事
- LM Studioが止まる・固まる原因 - メモリ不足とモデル負荷を切り分ける
- モデルサイズ早見表 - PCに合う規模へ下げる
- Q4・Q5・Q8の違い - 量子化で負荷を調整する
- GPUなしPCで使う方法 - CPU実行の現実的な範囲を見る
よくある質問
GPUオフロードを増やせば必ず速くなりますか?
必ず速くなるわけではありません。VRAM不足や不安定な設定では遅くなったり、読み込みに失敗したりする可能性があります。
CPU使用率が高いのは異常ですか?
異常とは限りません。CPU推論中心の構成、GPUに十分載っていないモデル、長いコンテキスト、重い量子化などでCPU使用率は高くなりやすいです。
GPU使用率が低いのはなぜですか?
タスクマネージャーの見方、GPUへ載っている量、処理内容、設定によって低く見える場合があります。VRAM使用量や回答速度も合わせて確認してください。
VRAMが足りないとどうなりますか?
読み込みに失敗する、CPU側へ回って遅くなる、不安定になる、といった症状につながる可能性があります。必要量はモデルと設定で変わります。
GPUなしでもLM Studioは使えますか?
軽量モデルなら試せる場合があります。ただしCPU実行では遅くなりやすいため、Q4前後、短い質問、小さめのモデルから始めてください。
Q8のほうがGPUを使えて速いですか?
そうとは限りません。Q8は重くなりやすく、VRAMやメモリに余裕がないと遅くなる場合があります。初心者はQ4/Q5前後から比較するほうが切り分けやすいです。
LM StudioでCPU 100%、GPU 5%なのは異常ですか?
必ずしも異常ではありません。GPU offloadが少ない、VRAMに収まらない、タスクマネージャーで3Dグラフを見ているなど複数の可能性があります。専用GPUメモリ、Compute系グラフ、LM Studioのロード設定を合わせて確認してください。
GPUオフロードを最大にすれば速くなりますか?
VRAMに収まり、実行環境が安定する範囲では改善することがありますが、最大が常に最速とは限りません。VRAM不足になる場合はロード失敗や不安定化が起こるため、段階的に比較してください。
GPUオフロードでCPU負荷は下がりますか?
GPUへ移せる計算が増えればCPU負荷が下がる場合があります。ただし、前処理、データ転送、GPUへ載らない処理などでCPUも使うため、0%になるとは限りません。
次に読むおすすめルート
GPUなし・低スペックPCの人
軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
- ローカルAI用PCスペックの見方
- GPUなしPCで使える範囲を整理
- 古いWindows PCでLM Studioを使うなら
- 中古PCでローカルAIは使える?
- ミニPCでローカルAIは使える?
- メモリ別に始める前に知ること
- Gemma 4 12Bの更新メモ
- 重い・動かないときの確認ポイント
- 診断ページ
あなたはどのタイプ?
- 初めてローカルAIを触る人 - まず全体像をつかみ、LM StudioとOllamaの違い、モデルサイズの考え方を順番に確認します。
- GPUなし・低スペックPCの人 - 軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
- PDFや資料を読ませたい人 - 先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。
- 開発・API連携したい人 - LM StudioとOllamaの違いを確認し、API、長文処理、RAGまで段階的に進みます。
関連チェック先
- LM Studio lms load - LM Studio CLIでのモデル読み込み、GPUオフロード、コンテキスト長、推定読み込みを確認できます。
- LM Studio API / Developer Docs - LM StudioのSDK、REST API、OpenAI互換API、ローカルサーバー機能を確認できます。
- LM Studio Local Server - LM StudioのローカルLLM APIサーバー、localhostやネットワーク公開、起動方法を確認できます。
- LM Studio Docs - LM Studioのアプリ、ローカルモデル、GGUF実行、オフライン利用、API機能の公式説明です。
- Characterizing and Understanding Energy Footprint and Efficiency of Small Language Model on Edges - Raspberry Pi 5、Jetson Nano、Jetson Orin Nanoで小型言語モデルの電力効率を比較した研究です。