PDFをAIに読ませても、なぜ間違えるのか?RAG・引用・検索漏れ・ハルシネーションの研究ガイド
- 公開日
- 2026-06-27
- 更新日
- 2026-06-28
- 情報確認日
- 2026-06-28
PDFをAIへ入れても、AIが全文を覚えたとは限りません。多くの文書チャットは、PDFから文字を取り出し、分割し、質問に近い断片を検索し、その断片を使って回答します。つまり、間違いはPDF抽出、チャンク分割、検索、引用、回答生成、プライバシー設定のどこでも起きます。
導入前に確認すること
- Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
- 最初は軽量モデル、短い質問、少ない同時作業から始める
- 公式サイトの対応OS、利用規約、モデルのライセンスを確認する
オンデバイスRAG/NPU研究から見る「重さ」の分解
RAGの重さは、回答モデルだけでなく、embedding、retrieval、reranking、generationの複合処理です。NPU研究はこの一部を省電力化できる可能性を示しますが、すべてのWindows PCやアプリへそのまま当てはめるものではありません。
| 段階 | 重くなる理由 | 初心者の確認 |
|---|---|---|
| embedding | 文書量が多い | 最初は公開PDFを1つだけ |
| retrieval | indexが大きい | 対象フォルダを絞る |
| reranking | 追加モデルが動く | 候補数や設定を見る |
| generation | LLM本体とcontextが重い | 小さいモデルと短い入力に戻す |
- オンデバイスRAG/NPU研究 - Snapdragon X Elite研究を過剰一般化せず読む
- RAG負荷分解ガイド - CPU/GPU/NPU/RAM/APIで重さを切り分ける
はじめに:PDFを入れても、AIは全文を覚えたわけではない
AnythingLLMのような文書チャット基盤では、PDFをワークスペースへ登録し、検索された文書断片をモデルへ渡して回答を作る流れが基本になります。長いPDFを毎回丸ごと読んでいると考えると、原因の切り分けを誤ります。
まず、PDF抽出、チャンク分割、埋め込み、検索、引用、回答生成を別々の工程として見てください。
PDFから文字を取り出す。画像PDF、表、段組みで崩れやすい場所です。
長い文書をチャンクへ切る。見出しと表が分かれると根拠が弱くなります。
質問に近い断片を探す。同義語、日本語表記ゆれ、専門語で漏れます。
検索された断片から回答する。根拠を超えた言いすぎが起きます。
RAGは何をしているのか
RAGは、モデルの内部知識だけで答える代わりに、外部文書から関連しそうな断片を検索し、その断片を回答材料として渡す仕組みです。知識更新や根拠提示に役立つ一方、検索品質、grounding、robustness、評価の難しさを持ち込みます。
研究サーベイでも、RAGは万能な正解装置ではなく、retrievalとgenerationを分けて評価する必要がある対象として扱われています。
PDF回答が間違う5つの場所
PDF回答の誤りは、モデルだけの問題とは限りません。強いモデルを使っても、入力された断片が間違っていれば回答もずれます。
| 段階 | 起きる問題 | 確認すること | 関連記事 |
|---|---|---|---|
| PDF抽出 | 文字化け、段組み崩れ、表の崩れ | 抽出テキストを見る | /articles/pdf-rag-ocr-text-extraction-problems/ |
| チャンク分割 | 必要な文脈が別々に切れる | 見出し・章単位で質問する | /articles/rag-chunking-retrieval-miss/ |
| 埋め込み | 日本語・専門語で検索が弱い | 同義語・用語を変えて質問する | /articles/japanese-pdf-embedding-rag/ |
| 検索 | 必要な断片が出ない | 引用や検索結果を確認する | /articles/rag-chunking-retrieval-miss/ |
| 生成 | 根拠から言いすぎる | 原文と回答を照合する | /articles/rag-citation-faithfulness-checklist/ |
| プライバシー | 外部APIやログへ送る | provider・保存先・ログを確認する | /articles/local-rag-privacy-checklist/ |
PDF抽出の失敗:画像PDF、表、段組み、脚注
PDFは見た目を保つための形式なので、AIが読みやすい素直な本文とは限りません。スキャンPDF、画像化された文字、複数段、脚注、ヘッダー、表、図中テキストは、抽出時点で順序や意味が崩れやすい部分です。
最初に確認するべきなのは、モデルの賢さではなく「検索対象になった文字列が正しく取れているか」です。
- PDF抽出の失敗を詳しく読む - 画像PDF、OCR、表、段組みを切り分ける
チャンク分割の失敗:必要な情報が別々に切られる
長いPDFは検索のために分割されます。分割が小さすぎると、定義、条件、例外、表の見出し、脚注が別々になり、回答に必要な文脈がそろいません。
章や見出しを指定して質問し、必要な前提が同じ引用範囲に入っているか確認します。
- チャンク分割と検索漏れ - 必要な情報が見つからない理由を読む
検索の失敗:質問に近い断片が見つからない
検索は、質問文と文書断片の近さを手がかりにします。日本語の表記ゆれ、専門語、略語、英数字、別名が多いPDFでは、質問を少し変えるだけで検索結果が変わることがあります。
「このPDFの結論は?」だけでなく、「第3章の結論」「表2の年度別の数値」「契約解除の条件」のように範囲を狭めて確認します。
引用の失敗:引用があるのに回答がずれる
引用が表示されても、回答が引用範囲を超えている場合があります。研究文脈では、factualityとfaithfulnessを分けて見る考え方があります。事実として正しいか、検索された根拠に沿っているかは別です。
| 確認項目 | OK | 注意 |
|---|---|---|
| 引用箇所が存在する | 元PDFで同じ文を確認できる | 引用番号だけ出ている |
| 回答が引用範囲を超えていない | 引用された範囲内で言える | 根拠にない結論を足している |
| 表や数字が一致する | 数値・単位・日付が同じ | 桁、単位、年度がずれる |
| 複数資料が混ざっていない | 資料ごとに分かる | 古い資料と新しい資料を混ぜる |
| 分からない時に分からないと言う | 不明点を保留する | 無理に補完する |
- 引用faithfulness確認 - 引用があるのに間違う理由を読む
回答生成の失敗:根拠から言いすぎる
検索された断片が正しくても、回答モデルが要約しすぎる、条件を落とす、複数資料を混ぜる、根拠にない結論を足すことがあります。
実務では「根拠のない部分は不明と答える」「引用範囲外の推測を分ける」「数値は原文の表記を保つ」といった指示と確認が必要です。
日本語PDFで起きやすい問題
日本語PDFでは、表記ゆれ、全角半角、専門用語、英数字混在、縦書き、禁則処理、OCR誤認識が検索を難しくします。回答モデルの日本語能力だけでなく、埋め込みモデルと抽出テキストの状態を見ます。
- 日本語PDFと埋め込みモデル - 日本語文書で検索精度が安定しない理由を読む
ローカルRAGでもプライバシー確認が必要な理由
ローカルRAGは外部送信を減らせる構成を作りやすい一方、外部APIのLLM、外部APIの埋め込み、クラウド同期、ログ、保存先、ワークスペース権限を見落とすと、文書や質問が意図せず外へ出る場合があります。
| 確認対象 | 見ること | 見落としやすい点 |
|---|---|---|
| LLM provider | LM Studio/Ollamaか外部APIか | 回答モデルだけ外部APIになっている |
| Embedding provider | ローカルか外部APIか | 埋め込み作成時に文書断片を送る |
| Vector DB | 保存場所と削除方法 | ワークスペース削除後の残存 |
| Logs | 質問、回答、引用の保存 | デバッグログや同期 |
| Access | ユーザー権限と共有範囲 | Desktop/Cloud/Self-hostedの混同 |
- ローカルRAGのプライバシー - 外部API・埋め込み・保存先を確認する
AnythingLLMで検証する順番
- LM StudioまたはOllama単体で短い日本語質問に答えられるか確認する。
- AnythingLLMに公開PDFを1つだけ入れる。
- PDFから抽出された本文や引用の見え方を確認する。
- 章や見出しを指定して質問する。
- 引用箇所を元PDFで照合する。
- 同じ質問を言い換え、検索結果が大きく変わらないか見る。
- 機密文書を入れる前に保存先、外部API、ログを確認する。
- AnythingLLM検証チェックリスト - 根拠確認・検索漏れ・引用ズレを順番に見る
仕事のPDFを入れる前にやること
最初から社内資料、契約書、顧客情報、個人情報を入れないでください。公開PDFで抽出、検索、引用照合、削除方法を確認してから、社内ルールと照らし合わせます。
- 仕事PDFを入れる前の確認 - 機密情報・保存先・外部送信を確認する
次に読む記事
- RAGはハルシネーションをなくすのか - 万能論を避ける
- PDFをAIに読ませても読めない原因 - OCRと抽出を切り分ける
- 引用faithfulness確認 - 引用がある回答を検証する
- AnythingLLMでPDFを読む手順 - 実際の設定手順へ進む
参考資料
SourceBoxには、RAGサーベイ、RAG評価サーベイ、RAGAS、faithfulness、RAG security/privacy、AnythingLLM公式Docs、LM Studio/Ollama公式情報を置いています。研究論文はプレプリントを含むため、記事では断定しすぎず、実用チェックリストへ落としています。
よくある質問
RAGを使えばハルシネーションはなくなりますか。
なくなるとは言えません。RAGは検索した断片を回答へ使う仕組みですが、抽出、分割、検索、引用、生成のどこでも誤りが起きます。
PDFを入れたのにAIが間違えるのはなぜですか。
PDFから文字を取り出せていない、必要な文脈が別々に分割された、検索で違う断片が出た、回答生成で根拠を超えた、など複数の原因があります。
引用がある回答なら正しいですか。
引用は確認の入口です。引用先が存在するか、回答が引用範囲を超えていないか、数字や単位が一致するかを元PDFで確認します。
AnythingLLMでPDFを読ませると全文を覚えますか。
通常は全文を毎回そのまま読むのではなく、質問に近い断片を検索してモデルへ渡します。文書量や設定によって見える範囲は変わります。
画像PDFやスキャンPDFは読めますか。
OCRが必要になる場合があります。OCR結果が崩れると、RAG側の検索や回答も崩れます。
日本語PDFはRAGに向いていますか。
使える場合はありますが、文字抽出、埋め込みモデル、日本語表記ゆれ、専門語、回答モデルの日本語能力に左右されます。
チャンク分割とは何ですか。
長い文書を検索しやすい小さな断片へ分ける処理です。小さすぎると文脈が切れ、大きすぎると検索やモデル入力が重くなります。
埋め込みモデルは何に影響しますか。
質問と文書断片の近さを数値で比べる部分に影響します。日本語、専門語、表記ゆれに弱いと検索漏れが増えます。
RAGの検索漏れはどう確認できますか。
同じ質問を言い換える、章や見出しを指定する、引用された断片を見る、元PDFで該当ページを探す、という順で確認します。
ローカルRAGなら外部に情報は出ませんか。
設定次第です。回答モデル、埋め込みモデル、OCR、同期、ログ、クラウド版、外部API providerを分けて確認してください。
仕事のPDFを入れる前に何を確認すべきですか。
社内ルール、個人情報、契約条件、保存先、外部送信、ログ、削除方法、回答の原文照合手順を確認します。
AnythingLLMで最初に試すPDFは何がよいですか。
機密ではない公開PDFを1つだけ使い、抽出テキスト、章指定質問、引用照合、言い換え質問を試すのが安全です。
RAGの精度を上げるには何から直せばよいですか。
先にPDF抽出を確認し、次に分割、埋め込み、検索結果、回答プロンプト、モデルの順で切り分けます。
小型LLMでもRAGは使えますか。
少量の文書と短い質問なら試せます。ただし長文処理、厳密な根拠確認、日本語PDFでは検索と人間確認の設計が重要です。
次に読むおすすめルート
PDFや資料を読ませたい人
先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。
- PDF・文書チャットの使い分け
- オンデバイスRAG/NPU研究
- RAGのCPU/GPU/NPU負荷分解
- AnythingLLMでPDFを読むには?商用利用前の確認も整理
- PDFを読ませても期待通りに答えない理由
- PDF抽出・OCR・表の崩れ
- チャンク分割と検索漏れ
- 引用faithfulness確認
- AnythingLLM検証チェックリスト
- ローカルLLMの安全性とプライバシー
- ローカルRAGのプライバシー
- RAG・埋め込み・ベクトルDBの仕組み
- GGUF安全とRAG/NPU研究
- 知らないGGUFを動かす前に
- 埋め込みモデルとは
- 日本語PDFと埋め込みモデル
- コンテキスト長とは
- 仕事のPDFを入れる前の確認
- AnythingLLMの解説
- まずローカルAIの基本ガイド
- PCスペックの見方
- 診断ページ
あなたはどのタイプ?
- 初めてローカルAIを触る人 - まず全体像をつかみ、LM StudioとOllamaの違い、モデルサイズの考え方を順番に確認します。
- GPUなし・低スペックPCの人 - 軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
- PDFや資料を読ませたい人 - 先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。
- 開発・API連携したい人 - LM StudioとOllamaの違いを確認し、API、長文処理、RAGまで段階的に進みます。
関連チェック先
- Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers - RAGが事実不整合や知識更新を補う一方、retrieval quality、grounding fidelity、robustnessなどの課題を持つことを整理したプレプリントです。
- Evaluation of Retrieval-Augmented Generation: A Survey - RAG評価ではretrievalとgenerationを分け、relevance、accuracy、faithfulnessなどを見る必要があることを整理したサーベイです。
- RAGAS: Automated Evaluation of Retrieval Augmented Generation - context relevance、faithfulness、answer qualityなど、RAG回答検証の考え方を読むための研究です。
- Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation - RAG出力でも事実性と根拠への忠実さを分けて見る必要があることを示すプレプリントです。
- Security and Privacy in Retrieval-Augmented Generation: Architectures, Threats, Defenses, and Future Directions for Building Trustworthy Systems - retrieval index、query log、context construction、knowledge base poisoningなど、RAGの安全性とプライバシー課題を整理した直近プレプリントです。
- AnythingLLM Docs - Embedding Models、Language Models、Vector Database、Security & Access、Privacy & Data Handlingなどの公式入口です。
- LM Studio Docs - LM Studioをモデル実行側、OpenAI compatible API providerとして使う際の公式入口です。
- Ollama - Ollamaをモデル実行側として使う場合の公式入口です。
- Energy-Efficient On-Device RAG on a Mobile NPU - Snapdragon X Elite / Hexagon NPU上でRAG pipelineの省電力化を検討した2026年のプレプリントです。全Windows PCへ一般化しない前提で読みます。
- Qualcomm Snapdragon X Elite - Snapdragon X EliteとHexagon NPUを確認する公式情報です。数値は公式ページ上の表記に限定して扱います。
- LM Studio Docs - LM Studioのアプリ、ローカルモデル、モデル管理の公式入口です。
- Ollama Docs - Ollamaの公式ドキュメント入口です。