PDFをAIに読ませても、なぜ間違えるのか?RAG・引用・検索漏れ・ハルシネーションの研究ガイド

公開日
2026-06-27
更新日
2026-06-28
情報確認日
2026-06-28

PDFをAIへ入れても、AIが全文を覚えたとは限りません。多くの文書チャットは、PDFから文字を取り出し、分割し、質問に近い断片を検索し、その断片を使って回答します。つまり、間違いはPDF抽出、チャンク分割、検索、引用、回答生成、プライバシー設定のどこでも起きます。

導入前に確認すること

  • Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
  • 最初は軽量モデル、短い質問、少ない同時作業から始める
  • 公式サイトの対応OS、利用規約、モデルのライセンスを確認する

オンデバイスRAG/NPU研究から見る「重さ」の分解

RAGの重さは、回答モデルだけでなく、embedding、retrieval、reranking、generationの複合処理です。NPU研究はこの一部を省電力化できる可能性を示しますが、すべてのWindows PCやアプリへそのまま当てはめるものではありません。

段階重くなる理由初心者の確認
embedding文書量が多い最初は公開PDFを1つだけ
retrievalindexが大きい対象フォルダを絞る
reranking追加モデルが動く候補数や設定を見る
generationLLM本体とcontextが重い小さいモデルと短い入力に戻す

はじめに:PDFを入れても、AIは全文を覚えたわけではない

AnythingLLMのような文書チャット基盤では、PDFをワークスペースへ登録し、検索された文書断片をモデルへ渡して回答を作る流れが基本になります。長いPDFを毎回丸ごと読んでいると考えると、原因の切り分けを誤ります。

まず、PDF抽出、チャンク分割、埋め込み、検索、引用、回答生成を別々の工程として見てください。

RAGは何をしているのか

RAGは、モデルの内部知識だけで答える代わりに、外部文書から関連しそうな断片を検索し、その断片を回答材料として渡す仕組みです。知識更新や根拠提示に役立つ一方、検索品質、grounding、robustness、評価の難しさを持ち込みます。

研究サーベイでも、RAGは万能な正解装置ではなく、retrievalとgenerationを分けて評価する必要がある対象として扱われています。

PDF回答が間違う5つの場所

PDF回答の誤りは、モデルだけの問題とは限りません。強いモデルを使っても、入力された断片が間違っていれば回答もずれます。

段階起きる問題確認すること関連記事
PDF抽出文字化け、段組み崩れ、表の崩れ抽出テキストを見る/articles/pdf-rag-ocr-text-extraction-problems/
チャンク分割必要な文脈が別々に切れる見出し・章単位で質問する/articles/rag-chunking-retrieval-miss/
埋め込み日本語・専門語で検索が弱い同義語・用語を変えて質問する/articles/japanese-pdf-embedding-rag/
検索必要な断片が出ない引用や検索結果を確認する/articles/rag-chunking-retrieval-miss/
生成根拠から言いすぎる原文と回答を照合する/articles/rag-citation-faithfulness-checklist/
プライバシー外部APIやログへ送るprovider・保存先・ログを確認する/articles/local-rag-privacy-checklist/

PDF抽出の失敗:画像PDF、表、段組み、脚注

PDFは見た目を保つための形式なので、AIが読みやすい素直な本文とは限りません。スキャンPDF、画像化された文字、複数段、脚注、ヘッダー、表、図中テキストは、抽出時点で順序や意味が崩れやすい部分です。

最初に確認するべきなのは、モデルの賢さではなく「検索対象になった文字列が正しく取れているか」です。

チャンク分割の失敗:必要な情報が別々に切られる

長いPDFは検索のために分割されます。分割が小さすぎると、定義、条件、例外、表の見出し、脚注が別々になり、回答に必要な文脈がそろいません。

章や見出しを指定して質問し、必要な前提が同じ引用範囲に入っているか確認します。

検索の失敗:質問に近い断片が見つからない

検索は、質問文と文書断片の近さを手がかりにします。日本語の表記ゆれ、専門語、略語、英数字、別名が多いPDFでは、質問を少し変えるだけで検索結果が変わることがあります。

「このPDFの結論は?」だけでなく、「第3章の結論」「表2の年度別の数値」「契約解除の条件」のように範囲を狭めて確認します。

引用の失敗:引用があるのに回答がずれる

引用が表示されても、回答が引用範囲を超えている場合があります。研究文脈では、factualityとfaithfulnessを分けて見る考え方があります。事実として正しいか、検索された根拠に沿っているかは別です。

確認項目OK注意
引用箇所が存在する元PDFで同じ文を確認できる引用番号だけ出ている
回答が引用範囲を超えていない引用された範囲内で言える根拠にない結論を足している
表や数字が一致する数値・単位・日付が同じ桁、単位、年度がずれる
複数資料が混ざっていない資料ごとに分かる古い資料と新しい資料を混ぜる
分からない時に分からないと言う不明点を保留する無理に補完する

回答生成の失敗:根拠から言いすぎる

検索された断片が正しくても、回答モデルが要約しすぎる、条件を落とす、複数資料を混ぜる、根拠にない結論を足すことがあります。

実務では「根拠のない部分は不明と答える」「引用範囲外の推測を分ける」「数値は原文の表記を保つ」といった指示と確認が必要です。

日本語PDFで起きやすい問題

日本語PDFでは、表記ゆれ、全角半角、専門用語、英数字混在、縦書き、禁則処理、OCR誤認識が検索を難しくします。回答モデルの日本語能力だけでなく、埋め込みモデルと抽出テキストの状態を見ます。

ローカルRAGでもプライバシー確認が必要な理由

ローカルRAGは外部送信を減らせる構成を作りやすい一方、外部APIのLLM、外部APIの埋め込み、クラウド同期、ログ、保存先、ワークスペース権限を見落とすと、文書や質問が意図せず外へ出る場合があります。

確認対象見ること見落としやすい点
LLM providerLM Studio/Ollamaか外部APIか回答モデルだけ外部APIになっている
Embedding providerローカルか外部APIか埋め込み作成時に文書断片を送る
Vector DB保存場所と削除方法ワークスペース削除後の残存
Logs質問、回答、引用の保存デバッグログや同期
Accessユーザー権限と共有範囲Desktop/Cloud/Self-hostedの混同

AnythingLLMで検証する順番

  1. LM StudioまたはOllama単体で短い日本語質問に答えられるか確認する。
  2. AnythingLLMに公開PDFを1つだけ入れる。
  3. PDFから抽出された本文や引用の見え方を確認する。
  4. 章や見出しを指定して質問する。
  5. 引用箇所を元PDFで照合する。
  6. 同じ質問を言い換え、検索結果が大きく変わらないか見る。
  7. 機密文書を入れる前に保存先、外部API、ログを確認する。

仕事のPDFを入れる前にやること

最初から社内資料、契約書、顧客情報、個人情報を入れないでください。公開PDFで抽出、検索、引用照合、削除方法を確認してから、社内ルールと照らし合わせます。

次に読む記事

参考資料

SourceBoxには、RAGサーベイ、RAG評価サーベイ、RAGAS、faithfulness、RAG security/privacy、AnythingLLM公式Docs、LM Studio/Ollama公式情報を置いています。研究論文はプレプリントを含むため、記事では断定しすぎず、実用チェックリストへ落としています。

よくある質問

RAGを使えばハルシネーションはなくなりますか。

なくなるとは言えません。RAGは検索した断片を回答へ使う仕組みですが、抽出、分割、検索、引用、生成のどこでも誤りが起きます。

PDFを入れたのにAIが間違えるのはなぜですか。

PDFから文字を取り出せていない、必要な文脈が別々に分割された、検索で違う断片が出た、回答生成で根拠を超えた、など複数の原因があります。

引用がある回答なら正しいですか。

引用は確認の入口です。引用先が存在するか、回答が引用範囲を超えていないか、数字や単位が一致するかを元PDFで確認します。

AnythingLLMでPDFを読ませると全文を覚えますか。

通常は全文を毎回そのまま読むのではなく、質問に近い断片を検索してモデルへ渡します。文書量や設定によって見える範囲は変わります。

画像PDFやスキャンPDFは読めますか。

OCRが必要になる場合があります。OCR結果が崩れると、RAG側の検索や回答も崩れます。

日本語PDFはRAGに向いていますか。

使える場合はありますが、文字抽出、埋め込みモデル、日本語表記ゆれ、専門語、回答モデルの日本語能力に左右されます。

チャンク分割とは何ですか。

長い文書を検索しやすい小さな断片へ分ける処理です。小さすぎると文脈が切れ、大きすぎると検索やモデル入力が重くなります。

埋め込みモデルは何に影響しますか。

質問と文書断片の近さを数値で比べる部分に影響します。日本語、専門語、表記ゆれに弱いと検索漏れが増えます。

RAGの検索漏れはどう確認できますか。

同じ質問を言い換える、章や見出しを指定する、引用された断片を見る、元PDFで該当ページを探す、という順で確認します。

ローカルRAGなら外部に情報は出ませんか。

設定次第です。回答モデル、埋め込みモデル、OCR、同期、ログ、クラウド版、外部API providerを分けて確認してください。

仕事のPDFを入れる前に何を確認すべきですか。

社内ルール、個人情報、契約条件、保存先、外部送信、ログ、削除方法、回答の原文照合手順を確認します。

AnythingLLMで最初に試すPDFは何がよいですか。

機密ではない公開PDFを1つだけ使い、抽出テキスト、章指定質問、引用照合、言い換え質問を試すのが安全です。

RAGの精度を上げるには何から直せばよいですか。

先にPDF抽出を確認し、次に分割、埋め込み、検索結果、回答プロンプト、モデルの順で切り分けます。

小型LLMでもRAGは使えますか。

少量の文書と短い質問なら試せます。ただし長文処理、厳密な根拠確認、日本語PDFでは検索と人間確認の設計が重要です。

次に読むおすすめルート

PDFや資料を読ませたい人

先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。

  1. PDF・文書チャットの使い分け
  2. オンデバイスRAG/NPU研究
  3. RAGのCPU/GPU/NPU負荷分解
  4. AnythingLLMでPDFを読むには?商用利用前の確認も整理
  5. PDFを読ませても期待通りに答えない理由
  6. PDF抽出・OCR・表の崩れ
  7. チャンク分割と検索漏れ
  8. 引用faithfulness確認
  9. AnythingLLM検証チェックリスト
  10. ローカルLLMの安全性とプライバシー
  11. ローカルRAGのプライバシー
  12. RAG・埋め込み・ベクトルDBの仕組み
  13. GGUF安全とRAG/NPU研究
  14. 知らないGGUFを動かす前に
  15. 埋め込みモデルとは
  16. 日本語PDFと埋め込みモデル
  17. コンテキスト長とは
  18. 仕事のPDFを入れる前の確認
  19. AnythingLLMの解説
  20. まずローカルAIの基本ガイド
  21. PCスペックの見方
  22. 診断ページ

あなたはどのタイプ?

関連チェック先

関連ツール

比較表を見る / 最初に検討しやすいツールを確認する