PDFをAIに読ませても、なぜ間違えるのか？RAG・引用・検索漏れ・ハルシネーションの研究ガイド

公開日: 2026-06-27
更新日: 2026-06-28
情報確認日: 2026-06-28

PDFをAIへ入れても、AIが全文を覚えたとは限りません。多くの文書チャットは、PDFから文字を取り出し、分割し、質問に近い断片を検索し、その断片を使って回答します。つまり、間違いはPDF抽出、チャンク分割、検索、引用、回答生成、プライバシー設定のどこでも起きます。

導入前に確認すること

Windowsのバージョン、メモリ容量、GPU/VRAM、空き容量を確認する
最初は軽量モデル、短い質問、少ない同時作業から始める
公式サイトの対応OS、利用規約、モデルのライセンスを確認する

オンデバイスRAG/NPU研究から見る「重さ」の分解

RAGの重さは、回答モデルだけでなく、embedding、retrieval、reranking、generationの複合処理です。NPU研究はこの一部を省電力化できる可能性を示しますが、すべてのWindows PCやアプリへそのまま当てはめるものではありません。

段階	重くなる理由	初心者の確認
embedding	文書量が多い	最初は公開PDFを1つだけ
retrieval	indexが大きい	対象フォルダを絞る
reranking	追加モデルが動く	候補数や設定を見る
generation	LLM本体とcontextが重い	小さいモデルと短い入力に戻す

オンデバイスRAG/NPU研究 - Snapdragon X Elite研究を過剰一般化せず読む
RAG負荷分解ガイド - CPU/GPU/NPU/RAM/APIで重さを切り分ける

はじめに：PDFを入れても、AIは全文を覚えたわけではない

AnythingLLMのような文書チャット基盤では、PDFをワークスペースへ登録し、検索された文書断片をモデルへ渡して回答を作る流れが基本になります。長いPDFを毎回丸ごと読んでいると考えると、原因の切り分けを誤ります。

まず、PDF抽出、チャンク分割、埋め込み、検索、引用、回答生成を別々の工程として見てください。

1 抽出

PDFから文字を取り出す。画像PDF、表、段組みで崩れやすい場所です。

2 分割

長い文書をチャンクへ切る。見出しと表が分かれると根拠が弱くなります。

3 検索

質問に近い断片を探す。同義語、日本語表記ゆれ、専門語で漏れます。

4 生成

検索された断片から回答する。根拠を超えた言いすぎが起きます。

RAGは何をしているのか

RAGは、モデルの内部知識だけで答える代わりに、外部文書から関連しそうな断片を検索し、その断片を回答材料として渡す仕組みです。知識更新や根拠提示に役立つ一方、検索品質、grounding、robustness、評価の難しさを持ち込みます。

研究サーベイでも、RAGは万能な正解装置ではなく、retrievalとgenerationを分けて評価する必要がある対象として扱われています。

PDF回答が間違う5つの場所

PDF回答の誤りは、モデルだけの問題とは限りません。強いモデルを使っても、入力された断片が間違っていれば回答もずれます。

段階	起きる問題	確認すること	関連記事
PDF抽出	文字化け、段組み崩れ、表の崩れ	抽出テキストを見る	/articles/pdf-rag-ocr-text-extraction-problems/
チャンク分割	必要な文脈が別々に切れる	見出し・章単位で質問する	/articles/rag-chunking-retrieval-miss/
埋め込み	日本語・専門語で検索が弱い	同義語・用語を変えて質問する	/articles/japanese-pdf-embedding-rag/
検索	必要な断片が出ない	引用や検索結果を確認する	/articles/rag-chunking-retrieval-miss/
生成	根拠から言いすぎる	原文と回答を照合する	/articles/rag-citation-faithfulness-checklist/
プライバシー	外部APIやログへ送る	provider・保存先・ログを確認する	/articles/local-rag-privacy-checklist/

PDF抽出の失敗：画像PDF、表、段組み、脚注

PDFは見た目を保つための形式なので、AIが読みやすい素直な本文とは限りません。スキャンPDF、画像化された文字、複数段、脚注、ヘッダー、表、図中テキストは、抽出時点で順序や意味が崩れやすい部分です。

最初に確認するべきなのは、モデルの賢さではなく「検索対象になった文字列が正しく取れているか」です。

PDF抽出の失敗を詳しく読む - 画像PDF、OCR、表、段組みを切り分ける

チャンク分割の失敗：必要な情報が別々に切られる

長いPDFは検索のために分割されます。分割が小さすぎると、定義、条件、例外、表の見出し、脚注が別々になり、回答に必要な文脈がそろいません。

章や見出しを指定して質問し、必要な前提が同じ引用範囲に入っているか確認します。

チャンク分割と検索漏れ - 必要な情報が見つからない理由を読む

検索の失敗：質問に近い断片が見つからない

検索は、質問文と文書断片の近さを手がかりにします。日本語の表記ゆれ、専門語、略語、英数字、別名が多いPDFでは、質問を少し変えるだけで検索結果が変わることがあります。

「このPDFの結論は？」だけでなく、「第3章の結論」「表2の年度別の数値」「契約解除の条件」のように範囲を狭めて確認します。

引用の失敗：引用があるのに回答がずれる

引用が表示されても、回答が引用範囲を超えている場合があります。研究文脈では、factualityとfaithfulnessを分けて見る考え方があります。事実として正しいか、検索された根拠に沿っているかは別です。

確認項目	OK	注意
引用箇所が存在する	元PDFで同じ文を確認できる	引用番号だけ出ている
回答が引用範囲を超えていない	引用された範囲内で言える	根拠にない結論を足している
表や数字が一致する	数値・単位・日付が同じ	桁、単位、年度がずれる
複数資料が混ざっていない	資料ごとに分かる	古い資料と新しい資料を混ぜる
分からない時に分からないと言う	不明点を保留する	無理に補完する

引用faithfulness確認 - 引用があるのに間違う理由を読む

回答生成の失敗：根拠から言いすぎる

検索された断片が正しくても、回答モデルが要約しすぎる、条件を落とす、複数資料を混ぜる、根拠にない結論を足すことがあります。

実務では「根拠のない部分は不明と答える」「引用範囲外の推測を分ける」「数値は原文の表記を保つ」といった指示と確認が必要です。

日本語PDFで起きやすい問題

日本語PDFでは、表記ゆれ、全角半角、専門用語、英数字混在、縦書き、禁則処理、OCR誤認識が検索を難しくします。回答モデルの日本語能力だけでなく、埋め込みモデルと抽出テキストの状態を見ます。

日本語PDFと埋め込みモデル - 日本語文書で検索精度が安定しない理由を読む

ローカルRAGでもプライバシー確認が必要な理由

ローカルRAGは外部送信を減らせる構成を作りやすい一方、外部APIのLLM、外部APIの埋め込み、クラウド同期、ログ、保存先、ワークスペース権限を見落とすと、文書や質問が意図せず外へ出る場合があります。

確認対象	見ること	見落としやすい点
LLM provider	LM Studio/Ollamaか外部APIか	回答モデルだけ外部APIになっている
Embedding provider	ローカルか外部APIか	埋め込み作成時に文書断片を送る
Vector DB	保存場所と削除方法	ワークスペース削除後の残存
Logs	質問、回答、引用の保存	デバッグログや同期
Access	ユーザー権限と共有範囲	Desktop/Cloud/Self-hostedの混同

ローカルRAGのプライバシー - 外部API・埋め込み・保存先を確認する

AnythingLLMで検証する順番

LM StudioまたはOllama単体で短い日本語質問に答えられるか確認する。
AnythingLLMに公開PDFを1つだけ入れる。
PDFから抽出された本文や引用の見え方を確認する。
章や見出しを指定して質問する。
引用箇所を元PDFで照合する。
同じ質問を言い換え、検索結果が大きく変わらないか見る。
機密文書を入れる前に保存先、外部API、ログを確認する。

AnythingLLM検証チェックリスト - 根拠確認・検索漏れ・引用ズレを順番に見る

仕事のPDFを入れる前にやること

最初から社内資料、契約書、顧客情報、個人情報を入れないでください。公開PDFで抽出、検索、引用照合、削除方法を確認してから、社内ルールと照らし合わせます。

仕事PDFを入れる前の確認 - 機密情報・保存先・外部送信を確認する

次に読む記事

RAGはハルシネーションをなくすのか - 万能論を避ける
PDFをAIに読ませても読めない原因 - OCRと抽出を切り分ける
引用faithfulness確認 - 引用がある回答を検証する
AnythingLLMでPDFを読む手順 - 実際の設定手順へ進む

参考資料

SourceBoxには、RAGサーベイ、RAG評価サーベイ、RAGAS、faithfulness、RAG security/privacy、AnythingLLM公式Docs、LM Studio/Ollama公式情報を置いています。研究論文はプレプリントを含むため、記事では断定しすぎず、実用チェックリストへ落としています。

よくある質問

RAGを使えばハルシネーションはなくなりますか。

なくなるとは言えません。RAGは検索した断片を回答へ使う仕組みですが、抽出、分割、検索、引用、生成のどこでも誤りが起きます。

PDFを入れたのにAIが間違えるのはなぜですか。

PDFから文字を取り出せていない、必要な文脈が別々に分割された、検索で違う断片が出た、回答生成で根拠を超えた、など複数の原因があります。

引用がある回答なら正しいですか。

引用は確認の入口です。引用先が存在するか、回答が引用範囲を超えていないか、数字や単位が一致するかを元PDFで確認します。

AnythingLLMでPDFを読ませると全文を覚えますか。

通常は全文を毎回そのまま読むのではなく、質問に近い断片を検索してモデルへ渡します。文書量や設定によって見える範囲は変わります。

画像PDFやスキャンPDFは読めますか。

OCRが必要になる場合があります。OCR結果が崩れると、RAG側の検索や回答も崩れます。

日本語PDFはRAGに向いていますか。

使える場合はありますが、文字抽出、埋め込みモデル、日本語表記ゆれ、専門語、回答モデルの日本語能力に左右されます。

チャンク分割とは何ですか。

長い文書を検索しやすい小さな断片へ分ける処理です。小さすぎると文脈が切れ、大きすぎると検索やモデル入力が重くなります。

埋め込みモデルは何に影響しますか。

質問と文書断片の近さを数値で比べる部分に影響します。日本語、専門語、表記ゆれに弱いと検索漏れが増えます。

RAGの検索漏れはどう確認できますか。

同じ質問を言い換える、章や見出しを指定する、引用された断片を見る、元PDFで該当ページを探す、という順で確認します。

ローカルRAGなら外部に情報は出ませんか。

設定次第です。回答モデル、埋め込みモデル、OCR、同期、ログ、クラウド版、外部API providerを分けて確認してください。

仕事のPDFを入れる前に何を確認すべきですか。

社内ルール、個人情報、契約条件、保存先、外部送信、ログ、削除方法、回答の原文照合手順を確認します。

AnythingLLMで最初に試すPDFは何がよいですか。

機密ではない公開PDFを1つだけ使い、抽出テキスト、章指定質問、引用照合、言い換え質問を試すのが安全です。

RAGの精度を上げるには何から直せばよいですか。

先にPDF抽出を確認し、次に分割、埋め込み、検索結果、回答プロンプト、モデルの順で切り分けます。

小型LLMでもRAGは使えますか。

少量の文書と短い質問なら試せます。ただし長文処理、厳密な根拠確認、日本語PDFでは検索と人間確認の設計が重要です。

次に読むおすすめルート

PDFや資料を読ませたい人

先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。

あなたはどのタイプ？

初めてローカルAIを触る人 - まず全体像をつかみ、LM StudioとOllamaの違い、モデルサイズの考え方を順番に確認します。
GPUなし・低スペックPCの人 - 軽量モデル、メモリ別の目安、重いときの確認ポイントを先に見ます。
PDFや資料を読ませたい人 - 先に基本を押さえ、モデル単体の確認後にAnythingLLMへ進みます。
開発・API連携したい人 - LM StudioとOllamaの違いを確認し、API、長文処理、RAGまで段階的に進みます。

PDFをAIに読ませても、なぜ間違えるのか？RAG・引用・検索漏れ・ハルシネーションの研究ガイド

導入前に確認すること

オンデバイスRAG/NPU研究から見る「重さ」の分解

はじめに：PDFを入れても、AIは全文を覚えたわけではない

RAGは何をしているのか

PDF回答が間違う5つの場所

PDF抽出の失敗：画像PDF、表、段組み、脚注

チャンク分割の失敗：必要な情報が別々に切られる

検索の失敗：質問に近い断片が見つからない

引用の失敗：引用があるのに回答がずれる

回答生成の失敗：根拠から言いすぎる

日本語PDFで起きやすい問題

ローカルRAGでもプライバシー確認が必要な理由

AnythingLLMで検証する順番

仕事のPDFを入れる前にやること

次に読む記事

参考資料

よくある質問

RAGを使えばハルシネーションはなくなりますか。

PDFを入れたのにAIが間違えるのはなぜですか。

引用がある回答なら正しいですか。

AnythingLLMでPDFを読ませると全文を覚えますか。

画像PDFやスキャンPDFは読めますか。

日本語PDFはRAGに向いていますか。

チャンク分割とは何ですか。

埋め込みモデルは何に影響しますか。

RAGの検索漏れはどう確認できますか。

ローカルRAGなら外部に情報は出ませんか。

仕事のPDFを入れる前に何を確認すべきですか。

AnythingLLMで最初に試すPDFは何がよいですか。

RAGの精度を上げるには何から直せばよいですか。

小型LLMでもRAGは使えますか。

次に読むおすすめルート

PDFや資料を読ませたい人

あなたはどのタイプ？

関連チェック先

関連ツール

PDFをAIに読ませても、なぜ間違えるのか？RAG・引用・検索漏れ・ハルシネーションの研究ガイド

導入前に確認すること

オンデバイスRAG/NPU研究から見る「重さ」の分解

はじめに：PDFを入れても、AIは全文を覚えたわけではない

RAGは何をしているのか

PDF回答が間違う5つの場所

PDF抽出の失敗：画像PDF、表、段組み、脚注

チャンク分割の失敗：必要な情報が別々に切られる

検索の失敗：質問に近い断片が見つからない

引用の失敗：引用があるのに回答がずれる

回答生成の失敗：根拠から言いすぎる

日本語PDFで起きやすい問題

ローカルRAGでもプライバシー確認が必要な理由

AnythingLLMで検証する順番

仕事のPDFを入れる前にやること

次に読む記事

参考資料

よくある質問

RAGを使えばハルシネーションはなくなりますか。

PDFを入れたのにAIが間違えるのはなぜですか。

引用がある回答なら正しいですか。

AnythingLLMでPDFを読ませると全文を覚えますか。

画像PDFやスキャンPDFは読めますか。

日本語PDFはRAGに向いていますか。

チャンク分割とは何ですか。

埋め込みモデルは何に影響しますか。

RAGの検索漏れはどう確認できますか。

ローカルRAGなら外部に情報は出ませんか。

仕事のPDFを入れる前に何を確認すべきですか。

AnythingLLMで最初に試すPDFは何がよいですか。

RAGの精度を上げるには何から直せばよいですか。

小型LLMでもRAGは使えますか。

次に読むおすすめルート

PDFや資料を読ませたい人

あなたはどのタイプ？

次に読むおすすめ記事

関連チェック先

関連ツール