LM StudioのGPUオフロードとは?CPU 100%・GPU使用率が低い時の確認

公開日
2026-06-06
更新日
2026-06-26
情報確認日
2026-06-26

GPUオフロードは、モデル処理の一部または多くをGPUへ担当させる考え方です。値を上げれば必ず速くなるわけではなく、VRAMに収まるか、モデルサイズ、量子化、コンテキスト長、利用するバックエンドを合わせて確認します。

導入前に確認すること

  • Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
  • 最初は軽量モデル、短い質問、少ない同時作業から始める
  • 公式サイトの対応OS、利用規約、モデルのライセンスを確認する

GPU offloadで速くなる場合と残るボトルネック

GPU offloadは、モデルの一部をGPUへ載せて速度改善を狙う設定です。ただしVRAM不足、CPU/RAM、context length、冷却が残ると、期待どおり速くならないことがあります。

症状疑うもの次の確認
GPU使用率が低いoffload設定、対応GPU少しずつlayerを調整
VRAM不足モデルが重い、Q8、大きいcontextQ4/Q5や短いcontextへ下げる
CPU 100%CPU側処理が残るモデルサイズと同時起動アプリを確認
発熱で遅い冷却/電力制限短時間テストと長時間テストを分ける

Hermes Desktopでつながらない時の読み順

Hermes Desktopの設定を何度も変える前に、症状別ハブで provider 側、base URL、model ID、API key、PC負荷を分けて確認してください。

GPUオフロードを触る前に見る表

CPU 100%・GPU 5%でも、直ちに設定ミスとは限りません。モデルの一部だけがGPUに載っている、タスクマネージャーで3Dグラフを見ている、前処理やデータ転送をCPUが担当している場合があります。使用率だけでなく、専用GPUメモリ、LM Studioのロード設定、生成速度を合わせて見ます。

症状先に変えるもの理由
ロード時に失敗モデルサイズ・量子化を下げる推論以前にRAM/VRAMへ収まっていない
VRAMが上限近いOffloadを少し下げる上げすぎると確保失敗や不安定化が起きる
CPU 100%で遅い軽いQ4、Context Lengthを下げる計算量とKVキャッシュを減らせる
GPU 0~数%に見える専用GPUメモリとCompute系グラフを見る3D使用率だけでは推論負荷を判断しにくい
GPUなし・内蔵GPU7B/8B未満も含む軽量候補、短文用途共有メモリ・帯域・冷却の制約が大きい

30秒結論:CPU使用率とGPU使用率だけで判断しない

CPU 100% CPU推論や一部処理の可能性

GPU offload、VRAM、モデルロード設定を確認します。

GPU 5% 表示グラフが違う場合もある

3DグラフだけでなくCompute系と専用GPUメモリを見ます。

VRAM満杯 載せすぎの可能性

モデル、コンテキスト、offload量を下げて安定性を見ます。

GPUオフロードとは

ローカルLLMの計算をCPUだけで行うのではなく、対応する処理をGPUへ移すことです。GPUが対応し、VRAMに余裕があり、実行環境が正しく認識している場合は、応答速度が改善することがあります。

一方、モデル全体や実行時データがVRAMに収まらない場合は、一部をCPUや共有メモリ側で扱う構成になります。オフロード数を増やしすぎると、ロード失敗、不安定化、メモリ不足につながる場合があります。

オフロード数を上げると何が変わるか

変更期待できること注意
GPUへ載せる量を増やすCPU側の計算を減らしやすいVRAM使用量が増える
モデルを小さくするVRAMへ載せやすくなるモデル能力は変わる
Q4へ下げる必要メモリを減らしやすい量子化による品質差がある
コンテキストを短くする実行時負荷を減らしやすい一度に扱える文章量が減る

GPU使用率が低く見える理由

  • Windowsタスクマネージャーが3Dグラフを表示し、計算用エンジンを見ていない。
  • 生成は短い処理の繰り返しで、瞬間的な使用率を見逃している。
  • モデルの一部しかGPUへオフロードされていない。
  • プロンプト処理と生成でCPU/GPUの負荷配分が異なる。
  • VRAM不足でCPU側や共有メモリ側の処理が増えている。

遅い時に確認する順番

  1. 短い質問へ戻し、トークン生成が本当に遅いか確認する。
  2. モデル規模、GGUF量子化、ファイル容量を確認する。
  3. LM StudioでGPUが認識され、offload設定が有効か確認する。
  4. 専用GPUメモリ使用量とPCメモリ使用量を見る。
  5. offload量を段階的に変更し、ロード失敗や速度を比較する。
  6. コンテキスト長を下げ、他の重いアプリを閉じる。

Windowsタスクマネージャーで見る時の注意

GPU使用率の1つの数字だけでは、LLM計算がGPUへ載っているか判断できません。GPUのグラフ種類を切り替え、Compute系の利用率、専用GPUメモリ、共有GPUメモリを確認します。LM Studio側のロード情報やログも合わせて見てください。

16GBメモリ・GPUなし・ミニPCの注意

環境現実的な対処
メモリ16GB7B/8B級Q4、短いコンテキスト、他アプリを閉じる
GPUなしCPU推論前提で軽いモデルと短い入力を使う
内蔵GPU共有メモリを使うため、PCメモリ全体の余裕を見る
ミニPC冷却、電力制限、増設可否、長時間負荷に注意する

次に確認する記事

よくある質問

GPUオフロードを増やせば必ず速くなりますか?

必ず速くなるわけではありません。VRAM不足や不安定な設定では遅くなったり、読み込みに失敗したりする可能性があります。

CPU使用率が高いのは異常ですか?

異常とは限りません。CPU推論中心の構成、GPUに十分載っていないモデル、長いコンテキスト、重い量子化などでCPU使用率は高くなりやすいです。

GPU使用率が低いのはなぜですか?

タスクマネージャーの見方、GPUへ載っている量、処理内容、設定によって低く見える場合があります。VRAM使用量や回答速度も合わせて確認してください。

VRAMが足りないとどうなりますか?

読み込みに失敗する、CPU側へ回って遅くなる、不安定になる、といった症状につながる可能性があります。必要量はモデルと設定で変わります。

GPUなしでもLM Studioは使えますか?

軽量モデルなら試せる場合があります。ただしCPU実行では遅くなりやすいため、Q4前後、短い質問、小さめのモデルから始めてください。

Q8のほうがGPUを使えて速いですか?

そうとは限りません。Q8は重くなりやすく、VRAMやメモリに余裕がないと遅くなる場合があります。初心者はQ4/Q5前後から比較するほうが切り分けやすいです。

LM StudioでCPU 100%、GPU 5%なのは異常ですか?

必ずしも異常ではありません。GPU offloadが少ない、VRAMに収まらない、タスクマネージャーで3Dグラフを見ているなど複数の可能性があります。専用GPUメモリ、Compute系グラフ、LM Studioのロード設定を合わせて確認してください。

GPUオフロードを最大にすれば速くなりますか?

VRAMに収まり、実行環境が安定する範囲では改善することがありますが、最大が常に最速とは限りません。VRAM不足になる場合はロード失敗や不安定化が起こるため、段階的に比較してください。

GPUオフロードでCPU負荷は下がりますか?

GPUへ移せる計算が増えればCPU負荷が下がる場合があります。ただし、前処理、データ転送、GPUへ載らない処理などでCPUも使うため、0%になるとは限りません。

次に読むおすすめルート

GPUなし・低スペックPCの人

軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。

  1. ローカルAI用PCスペックの見方
  2. GPUなしPCで使える範囲を整理
  3. 古いWindows PCでLM Studioを使うなら
  4. 中古PCでローカルAIは使える?
  5. ミニPCでローカルAIは使える?
  6. メモリ別に始める前に知ること
  7. Gemma 4 12Bの更新メモ
  8. 重い・動かないときの確認ポイント
  9. 診断ページ

あなたはどのタイプ?

関連チェック先

関連ツール

比較表を見る / 最初に検討しやすいツールを確認する