WHATISAI｜応用編

RAG・LoRA・推論モデル・エージェントを、
3つのクセで見抜く

ここからは応用編。巷のニュースや営業資料に出てくる難しい言葉も、これまで手に入れた3つのクセで、ほぼ全部読み解けます。新しい仕組みを覚えるのではなく、同じ3つのクセの当てはめ方を見ていきましょう。経営判断に直結する話ばかりです。

復習 ── 3つのクセ

「予測」のクセ＝AIは次の一語を確率で予測するだけ／「文脈」のクセ＝渡した文脈がその予測を作り替える／「ゆらぎ」のクセ＝選ぶたびに答えがゆらぐ。この3つだけで、以下の最先端ワードが全部説明できます。（本文の点線の語は、タップで意味が出ます。）

バズワード①｜課題解決の本命RAG ── AIに「カンペ」を渡す

第1章で、AIは事実を調べず確率の高い続きを選ぶ＝だからハルシネーションが起きる、と見ました。RAG（検索拡張生成）は、その弱点を“文脈”のクセで突く方法です。

日常でいうと

オープンブック試験です。AIに「頭の中だけで解け」と言う代わりに、関連する社内文書を見つけてきて、質問と一緒に渡す。AIはその文脈から確率を作る（“文脈”のクセ）ので、渡した資料に沿った答えになり、作り話（ハルシネーション）が減ります。

1質問を「意味の座標」に変換（第1章の埋め込み）

→

2社内文書から、意味の近い断片を検索

→

3その断片＋質問をまとめてAIに渡す

→

4AIは「カンペを見ながら」答える

だからRAGは、頻繁に変わる情報・大量の社内文書に強い。資料を差し替えれば、その瞬間から答えが変わる（再学習は不要）。出典も追えるので監査にも向きます。

限界も正直に：渡す資料が間違っていれば、AIは堂々とその誤りを答えます（カンペが間違っていれば、試験も間違える）。質問と文書の言い回しが違いすぎると検索が外す、長い文脈の中盤を読み飛ばす（"lost in the middle"）といった弱点もあります。

発展発展：RAGの最新動向（リランキング・Agentic RAG・GraphRAG・長文脈との対決）▼ 数式が苦手な方は飛ばしてOK

2段階リランキング：高速だが粗い検索（bi-encoder）で候補を50〜100件集め、低速だが精密なcross-encoderで上位に絞り直す。精度が大きく改善します。

Agentic RAG：「1回検索して終わり」ではなく、AI自身が「情報が足りないか？」を判断し、検索→反省→再検索を繰り返すループ型（第6節のエージェントと地続き）。2025年以降の主流。

GraphRAG（Microsoft）：単なる意味の近さでなく、エンティティと関係を知識グラフにして検索。「Aの親会社の競合は？」のような多段の関係推論に強い。LazyGraphRAGでインデックスコストが大幅低減。

長文脈 vs RAG：100万トークン級の長文脈に全部貼る手もありますが、研究では1クエリのコストがRAGの数百〜1,000倍規模、待ち時間も数十秒に達し、長文脈の中盤の事実が落ちる（実効再現率の低下）報告も。2026年の結論は「二択でなく、クエリの複雑さで使い分ける（Adaptive RAG）」へ。

出典：Agentic RAG Survey (arXiv:2501.09136)、Microsoft GraphRAG、Long-Context vs RAG の各比較（2025-2026）。数値はモデル・実装で大きく変動する概算です。

バズワード②｜内製判断の核心LoRA ── 頭脳に「薄い付箋」を貼る

RAGが「毎回カンペを渡す（一時的）」なら、ファインチューニングは頭脳そのものの確率の癖を、恒久的に書き換える（“予測”のクセ）。その効率版が LoRA です。

日常でいうと

分厚い会社のマニュアル（元の頭脳）は変えず、自社ルールを書いた薄い付箋を貼る。実務ではマニュアル＋付箋の合計で判断し、学習時は付箋だけを更新する。だから安く・速い。

数式でいうと、重みの変化分 $\Delta W$ を、2枚の小さな行列の積で近似します。

W = W_0 + \Delta W,\qquad \Delta W = B\,A \quad(\text{$A,B$ は薄い行列})

たとえば 4096×4096 の重みをまるごと学習すると約 1,680万 パラメータ。LoRA（ランク16）なら付箋部分は約 13万 ── 99%以上の節約です。さらに QLoRA（4ビット量子化との併用）なら、70B級の大型モデルでも 48GB級の GPU 1枚で微調整できる水準まで下がります。

よくある誤解：「ファインチューニングすれば社内知識を全部覚えさせられる」── これは違います。ファインチューニングが得意なのは「振る舞い・文体・形式」の調整。事実そのものを大量に覚えさせるのは非効率で、それはRAGの仕事です。

まず予想してみる

毎日更新される社内FAQに、AIを正確に答えさせたい。筋が良いのは？

経営判断のための地図プロンプト / 長文脈 / RAG / LoRA、どれを選ぶ

「内製か外注か」「自社データをどう活かすか」── その判断は、この4択の地図で整理できます。

手法	向くケース	更新頻度	コスト感	クセでの正体
プロンプト	まず試す・調整	毎回手で	ほぼ0	文脈で確率を誘導（一時）
長文脈	静的な文書まるごと	静的向き	1クエリが高い	大量の文脈を一度に注入
RAG	大量・更新が多い知識	即時反映◎	低〜中	必要な文脈だけ毎回注入
LoRA	文体・形式・特化	月〜四半期で再学習	中（GPU代）	確率の癖を恒久書き換え

※ 2025-2026のベストプラクティスは「二択」でなく組み合わせ（例：文体はLoRA、知識はRAG）。コスト・レイテンシは概算で、モデルにより大きく変動します。

バズワード③｜“考えるAI”推論モデル ── 途中式を書くと、賢くなる

o3 や DeepSeek-R1 などの推論モデル。「考えてから答える」と聞くと特別に思えますが、正体は“予測”と“文脈”のクセで説明できます。

日常でいうと

難しい計算を暗算でやる vs 紙に途中式を書く。途中式を書いたほうが正解率は上がりますよね。AIにとっての「途中式」が、答えの前に大量に出力する思考トークンです。

思考トークンを書き出すと、それ自体が文脈に積み上がり（“文脈”のクセ）、次の予測確率が更新されていく。「賢くなった」というより、考えたテキストが文脈を豊かにし、確率を“より良い答え”へ引き寄せているのです。これは推論時に計算を多く使うほど性能が伸びやすい（test-time compute／ただし後述のように限界もある）という新しい軸として注目されています。

誇張しない注記：「人間のように考えている」わけではありません。また考えすぎ（overthinking）で逆に精度が落ちることが2025年の複数研究で確認されており、数学・コーディングで効く一方、万能ではありません。

バズワード④｜“動くAI”エージェント ── “文脈”のクセを、ぐるぐる回す

最後はエージェント。AIが検索したりツールを使ったり、自分で何手も進める仕組みです。これも“文脈”のクセの反復にすぎません。

日常でいうと

旅行代理店に「安い便を探して」と頼む感じ。代理店は複数サイトを調べ→結果を見て→また調べ→最後に提案します。エージェントは、この一連をAIが自分でやるもの。

考える→行動（ツールを呼ぶ）→結果を見る↻

仕組みはこうです。AIの出力の一部が「行動の指示」（例：検索する）になり、その結果が文脈に戻ってくる。すると確率が更新され、次の一手を決める ── これを繰り返す。“文脈”のクセをループさせているだけ、と見抜けます。

発展発展：推論モデルとエージェントの最新動向（GRPO・MCP・限界）▼ 数式が苦手な方は飛ばしてOK

推論モデルの獲得法：DeepSeek-R1 の開発では、まずなしに、強化学習（）だけで「自己検証・長い連鎖思考」が自発的に出現することが示されました（その初期モデルが R1-Zero）。性能面では、o3 は数学（AIME 2024）で約96.7%、ARC-AGI-1 でも 75.7〜87.5%（計算量による）と高スコアを記録。ただし、より難しい ARC-AGI-2 では数%まで落ちるなど万能ではありません。コストは R1 が o3 比で大幅に安く、オープン化も進んでいます。

エージェントの標準化：ツール接続の共通規格 MCP（Model Context Protocol） は、2025年末に Agentic AI Foundation（Linux Foundation 傘下）へ移管され、業界標準になりつつあります。「コンピュータ操作」型エージェント（Claude Computer Use / OpenAI CUA など）も実用化が進み、2026年には主要ベンチ（OSWorld など）で8割前後まで到達。ただし平均はまだ人間に届かず、タスクによっては大きく外すため過大評価は禁物。本番では「重要操作には人間の確認（human-in-the-loop）」が標準設計です。

セキュリティ：エージェントへのプロンプトインジェクションやツール呼び出しの偽装が、2026年の主要な攻撃面として研究が活発化しています。

出典：DeepSeek-R1 (arXiv:2501.12948)、Epoch AI（推論スケーリング）、MCP/エージェント各種（2025-2026）。ベンチマーク値は時点・条件依存です。

応用編のひとこと

最先端のバズワードも、結局は
3つのクセの組み合わせで読める。

── RAG＝文脈で確率を正す。LoRA＝確率の癖を恒久書き換え。推論モデル＝途中式で文脈を豊かに。エージェント＝それをループ。新しい言葉が出てきても、もう怖くありません。