WHATISAI応用編

RAG・LoRA・推論モデル・エージェントを、
3つのレンズで見抜く

ここからは応用編。巷のニュースや営業資料に出てくる難しい言葉も、これまで手に入れた3つのレンズで、ほぼ全部読み解けます。 新しい仕組みを覚えるのではなく、同じレンズの当て方を見ていきましょう。経営判断に直結する話ばかりです。

復習 ── 3つのレンズ

①AIは次の一語の確率を予測しているだけ/②文脈がその確率を作り替える/③確率から選ぶときブレが入る。これだけで、以下の最先端ワードが全部説明できます。

バズワード①|課題解決の本命RAG ── AIに「カンペ」を渡す

第1章で、AIは事実を調べず確率の高い続きを選ぶ=だからハルシネーションが起きる、と見ました。RAG(検索拡張生成)は、その弱点をレンズ②で突く方法です。

日常でいうと
オープンブック試験です。AIに「頭の中だけで解け」と言う代わりに、関連する社内文書を見つけてきて、質問と一緒に渡す。AIはその文脈から確率を作る(レンズ②)ので、正解の確率がぐっと上がります。
1質問を「意味の座標」に変換(第1章の埋め込み)
2社内文書から、意味の近い断片を検索
3その断片+質問をまとめてAIに渡す
4AIは「カンペを見ながら」答える

だからRAGは、頻繁に変わる情報・大量の社内文書に強い。資料を差し替えれば、その瞬間から答えが変わる(再学習は不要)。出典も追えるので監査にも向きます。

限界も正直に:渡す資料が間違っていれば、AIは堂々とその誤りを答えます(カンペが間違っていれば、試験も間違える)。質問と文書の言い回しが違いすぎると検索が外す、長い文脈の中盤を読み飛ばす("lost in the middle")といった弱点もあります。

発展発展:RAGの最新動向(リランキング・Agentic RAG・GraphRAG・長文脈との対決)▼ 数式が苦手な方は飛ばしてOK

2段階リランキング:高速だが粗い検索(bi-encoder)で候補を50〜100件集め、低速だが精密なcross-encoderで上位に絞り直す。精度が大きく改善します。

Agentic RAG:「1回検索して終わり」ではなく、AI自身が「情報が足りないか?」を判断し、検索→反省→再検索を繰り返すループ型(第6節のエージェントと地続き)。2025年以降の主流。

GraphRAG(Microsoft):単なる意味の近さでなく、エンティティと関係を知識グラフにして検索。「Aの親会社の競合は?」のような多段の関係推論に強い。LazyGraphRAGでインデックスコストが大幅低減。

長文脈 vs RAG:100万トークン級の長文脈に全部貼る手もありますが、研究では1クエリのコストがRAGのおよそ1,000倍超、待ち時間も数十秒に達し、長文脈の中盤の事実が落ちる(実効再現率の低下)報告も。2026年の結論は「二択でなく、クエリの複雑さで使い分ける(Adaptive RAG)」へ。

出典:Agentic RAG Survey (arXiv:2501.09136)、Microsoft GraphRAG、Long-Context vs RAG の各比較(2025-2026)。数値はモデル・実装で大きく変動する概算です。

バズワード②|内製判断の核心LoRA ── 頭脳に「薄い付箋」を貼る

RAGが「毎回カンペを渡す(一時的)」なら、ファインチューニング頭脳そのものの確率の癖を、恒久的に書き換える(レンズ①)。その効率版が LoRA です。

日常でいうと
分厚い会社のマニュアル(元の頭脳)は変えず、自社ルールを書いた薄い付箋を貼る。実務ではマニュアル+付箋の合計で判断し、学習時は付箋だけを更新する。だから安く・速い。

数式でいうと、重みの変化分 ΔW\Delta W を、2枚の小さな行列の積で近似します。

W=W0+ΔW,ΔW=BA(A,B は薄い行列)W = W_0 + \Delta W,\qquad \Delta W = B\,A \quad(\text{$A,B$ は薄い行列})

たとえば 4096×4096 の重みをまるごと学習すると約 1,680万 パラメータ。LoRA(ランク16)なら付箋部分は約 13万 ── 99%以上の節約です。さらに QLoRA(4ビット量子化との併用)なら、70Bの大型モデルでも GPU 1枚で微調整できる水準まで下がります。

よくある誤解:「ファインチューニングすれば社内知識を全部覚えさせられる」── これは違います。ファインチューニングが得意なのは「振る舞い・文体・形式」の調整。事実そのものを大量に覚えさせるのは非効率で、それはRAGの仕事です。

まず予想してみる

毎日更新される社内FAQに、AIを正確に答えさせたい。筋が良いのは?

経営判断のための地図プロンプト / 長文脈 / RAG / LoRA、どれを選ぶ

「内製か外注か」「自社データをどう活かすか」── その判断は、この4択の地図で整理できます。

手法向くケース更新頻度コスト感レンズでの正体
プロンプトまず試す・調整毎回手でほぼ0文脈で確率を誘導(一時)
長文脈静的な文書まるごと静的向き1クエリが高い大量の文脈を一度に注入
RAG大量・更新が多い知識即時反映◎低〜中必要な文脈だけ毎回注入
LoRA文体・形式・特化月〜四半期で再学習中(GPU代)確率の癖を恒久書き換え

※ 2025-2026のベストプラクティスは「二択」でなく組み合わせ(例:文体はLoRA、知識はRAG)。コスト・レイテンシは概算で、モデルにより大きく変動します。

バズワード③|“考えるAI”推論モデル ── 途中式を書くと、賢くなる

o3 や DeepSeek-R1 などの推論モデル。「考えてから答える」と聞くと特別に思えますが、正体はレンズ①②で説明できます。

日常でいうと
難しい計算を暗算でやる vs 紙に途中式を書く。途中式を書いたほうが正解率は上がりますよね。AIにとっての「途中式」が、答えの前に大量に出力する思考トークンです。

思考トークンを書き出すと、それ自体が文脈に積み上がり(レンズ②)、次の予測確率が良い方向へ更新されていく。「賢くなった」というより、考えたテキストが文脈を豊かにし、確率を正解へ引き寄せているのです。これは推論時に計算を多く使うほど性能が上がる(test-time compute)という新しい軸として注目されています。

誇張しない注記:「人間のように考えている」わけではありません。また考えすぎ(overthinking)で逆に精度が落ちることが2025年の複数研究で確認されており、数学・コーディングで効く一方、万能ではありません。

バズワード④|“動くAI”エージェント ── レンズ②を、ぐるぐる回す

最後はエージェント。AIが検索したりツールを使ったり、自分で何手も進める仕組みです。これもレンズ②の反復にすぎません。

日常でいうと
旅行代理店に「安い便を探して」と頼む感じ。代理店は複数サイトを調べ→結果を見て→また調べ→最後に提案します。エージェントは、この一連をAIが自分でやるもの。
考える行動(ツールを呼ぶ)結果を見る

仕組みはこうです。AIの出力の一部が「行動の指示」(例:検索する)になり、その結果が文脈に戻ってくる。すると確率が更新され、次の一手を決める ── これを繰り返す。レンズ②をループさせているだけ、と見抜けます。

発展発展:推論モデルとエージェントの最新動向(GRPO・MCP・限界)▼ 数式が苦手な方は飛ばしてOK

推論モデルの獲得法:DeepSeek-R1 は教師あり調整を経ずに、強化学習(GRPO)だけで「自己検証・長い連鎖思考」が自発的に出現しました。o3 は ARC-AGI で 96.7% など高いベンチマークを記録。一方コストは R1 が o3 比で大幅に安く、オープン化も進んでいます。

エージェントの標準化:ツール接続の共通規格 MCP(Model Context Protocol) が業界標準化(Linux Foundation 傘下へ)。「コンピュータ操作」型エージェント(Claude Computer Use / OpenAI CUA など)も登場。ただし最高クラスでもベンチマーク達成率は6割前後で、過大評価に注意。本番では「重要操作には人間の確認(human-in-the-loop)」が標準設計です。

セキュリティ:エージェントへのプロンプトインジェクションやツール呼び出しの偽装が、2026年の主要な攻撃面として研究が活発化しています。

出典:DeepSeek-R1 (arXiv:2501.12948)、Epoch AI(推論スケーリング)、MCP/エージェント各種(2025-2026)。ベンチマーク値は時点・条件依存です。

応用編のひとこと

最先端のバズワードも、結局は
3つのレンズの組み合わせで読める。

── RAG=文脈で確率を正す。LoRA=確率の癖を恒久書き換え。推論モデル=途中式で文脈を豊かに。エージェント=それをループ。新しい言葉が出てきても、もう怖くありません。