WHATISAI|応用編
RAG・LoRA・推論モデル・エージェントを、
3つのレンズで見抜く
ここからは応用編。巷のニュースや営業資料に出てくる難しい言葉も、これまで手に入れた3つのレンズで、ほぼ全部読み解けます。 新しい仕組みを覚えるのではなく、同じレンズの当て方を見ていきましょう。経営判断に直結する話ばかりです。
①AIは次の一語の確率を予測しているだけ/②文脈がその確率を作り替える/③確率から選ぶときブレが入る。これだけで、以下の最先端ワードが全部説明できます。
バズワード①|課題解決の本命RAG ── AIに「カンペ」を渡す
第1章で、AIは事実を調べず確率の高い続きを選ぶ=だからハルシネーションが起きる、と見ました。RAG(検索拡張生成)は、その弱点をレンズ②で突く方法です。
だからRAGは、頻繁に変わる情報・大量の社内文書に強い。資料を差し替えれば、その瞬間から答えが変わる(再学習は不要)。出典も追えるので監査にも向きます。
限界も正直に:渡す資料が間違っていれば、AIは堂々とその誤りを答えます(カンペが間違っていれば、試験も間違える)。質問と文書の言い回しが違いすぎると検索が外す、長い文脈の中盤を読み飛ばす("lost in the middle")といった弱点もあります。
発展発展:RAGの最新動向(リランキング・Agentic RAG・GraphRAG・長文脈との対決)▼ 数式が苦手な方は飛ばしてOK
2段階リランキング:高速だが粗い検索(bi-encoder)で候補を50〜100件集め、低速だが精密なcross-encoderで上位に絞り直す。精度が大きく改善します。
Agentic RAG:「1回検索して終わり」ではなく、AI自身が「情報が足りないか?」を判断し、検索→反省→再検索を繰り返すループ型(第6節のエージェントと地続き)。2025年以降の主流。
GraphRAG(Microsoft):単なる意味の近さでなく、エンティティと関係を知識グラフにして検索。「Aの親会社の競合は?」のような多段の関係推論に強い。LazyGraphRAGでインデックスコストが大幅低減。
長文脈 vs RAG:100万トークン級の長文脈に全部貼る手もありますが、研究では1クエリのコストがRAGのおよそ1,000倍超、待ち時間も数十秒に達し、長文脈の中盤の事実が落ちる(実効再現率の低下)報告も。2026年の結論は「二択でなく、クエリの複雑さで使い分ける(Adaptive RAG)」へ。
出典:Agentic RAG Survey (arXiv:2501.09136)、Microsoft GraphRAG、Long-Context vs RAG の各比較(2025-2026)。数値はモデル・実装で大きく変動する概算です。
バズワード②|内製判断の核心LoRA ── 頭脳に「薄い付箋」を貼る
RAGが「毎回カンペを渡す(一時的)」なら、ファインチューニングは頭脳そのものの確率の癖を、恒久的に書き換える(レンズ①)。その効率版が LoRA です。
数式でいうと、重みの変化分 を、2枚の小さな行列の積で近似します。
たとえば 4096×4096 の重みをまるごと学習すると約 1,680万 パラメータ。LoRA(ランク16)なら付箋部分は約 13万 ── 99%以上の節約です。さらに QLoRA(4ビット量子化との併用)なら、70Bの大型モデルでも GPU 1枚で微調整できる水準まで下がります。
よくある誤解:「ファインチューニングすれば社内知識を全部覚えさせられる」── これは違います。ファインチューニングが得意なのは「振る舞い・文体・形式」の調整。事実そのものを大量に覚えさせるのは非効率で、それはRAGの仕事です。
毎日更新される社内FAQに、AIを正確に答えさせたい。筋が良いのは?
経営判断のための地図プロンプト / 長文脈 / RAG / LoRA、どれを選ぶ
「内製か外注か」「自社データをどう活かすか」── その判断は、この4択の地図で整理できます。
| 手法 | 向くケース | 更新頻度 | コスト感 | レンズでの正体 |
|---|---|---|---|---|
| プロンプト | まず試す・調整 | 毎回手で | ほぼ0 | 文脈で確率を誘導(一時) |
| 長文脈 | 静的な文書まるごと | 静的向き | 1クエリが高い | 大量の文脈を一度に注入 |
| RAG | 大量・更新が多い知識 | 即時反映◎ | 低〜中 | 必要な文脈だけ毎回注入 |
| LoRA | 文体・形式・特化 | 月〜四半期で再学習 | 中(GPU代) | 確率の癖を恒久書き換え |
※ 2025-2026のベストプラクティスは「二択」でなく組み合わせ(例:文体はLoRA、知識はRAG)。コスト・レイテンシは概算で、モデルにより大きく変動します。
バズワード③|“考えるAI”推論モデル ── 途中式を書くと、賢くなる
o3 や DeepSeek-R1 などの推論モデル。「考えてから答える」と聞くと特別に思えますが、正体はレンズ①②で説明できます。
思考トークンを書き出すと、それ自体が文脈に積み上がり(レンズ②)、次の予測確率が良い方向へ更新されていく。「賢くなった」というより、考えたテキストが文脈を豊かにし、確率を正解へ引き寄せているのです。これは推論時に計算を多く使うほど性能が上がる(test-time compute)という新しい軸として注目されています。
誇張しない注記:「人間のように考えている」わけではありません。また考えすぎ(overthinking)で逆に精度が落ちることが2025年の複数研究で確認されており、数学・コーディングで効く一方、万能ではありません。
バズワード④|“動くAI”エージェント ── レンズ②を、ぐるぐる回す
最後はエージェント。AIが検索したりツールを使ったり、自分で何手も進める仕組みです。これもレンズ②の反復にすぎません。
仕組みはこうです。AIの出力の一部が「行動の指示」(例:検索する)になり、その結果が文脈に戻ってくる。すると確率が更新され、次の一手を決める ── これを繰り返す。レンズ②をループさせているだけ、と見抜けます。
発展発展:推論モデルとエージェントの最新動向(GRPO・MCP・限界)▼ 数式が苦手な方は飛ばしてOK
推論モデルの獲得法:DeepSeek-R1 は教師あり調整を経ずに、強化学習(GRPO)だけで「自己検証・長い連鎖思考」が自発的に出現しました。o3 は ARC-AGI で 96.7% など高いベンチマークを記録。一方コストは R1 が o3 比で大幅に安く、オープン化も進んでいます。
エージェントの標準化:ツール接続の共通規格 MCP(Model Context Protocol) が業界標準化(Linux Foundation 傘下へ)。「コンピュータ操作」型エージェント(Claude Computer Use / OpenAI CUA など)も登場。ただし最高クラスでもベンチマーク達成率は6割前後で、過大評価に注意。本番では「重要操作には人間の確認(human-in-the-loop)」が標準設計です。
セキュリティ:エージェントへのプロンプトインジェクションやツール呼び出しの偽装が、2026年の主要な攻撃面として研究が活発化しています。
出典:DeepSeek-R1 (arXiv:2501.12948)、Epoch AI(推論スケーリング)、MCP/エージェント各種(2025-2026)。ベンチマーク値は時点・条件依存です。
最先端のバズワードも、結局は
3つのレンズの組み合わせで読める。
── RAG=文脈で確率を正す。LoRA=確率の癖を恒久書き換え。推論モデル=途中式で文脈を豊かに。エージェント=それをループ。新しい言葉が出てきても、もう怖くありません。