WHATISAI|第2章
なぜ「聞き方」を変えるだけで、
答えの質が激変するのか
同じAIに、同じことを頼んでいるはずなのに ── 一言を添えるかどうかで、返ってくるものが見違える。 この章を読み終えると、その理由を「AIの中で何が起きているか」から、あなた自身の言葉で説明できるようになります。
📐 この章には、本書で唯一「本物の数式」が出てきます。でも安心してください。 一行ずつ、ふだんの言葉で「要するに何か」を必ず添えます。 数式は飛ばしても筋は通ります ── 深く知りたい方のための手すりです。
あれ? と思った、あの瞬間たぶん、あなたはもう経験している
来週の会議の準備をAIに手伝ってもらおうとした場面を思い出してください。最初の頼み方と、少し言葉を足した頼み方では、こうも違ったはずです。
「来週の会議の議題を考えて」
当たり障りのない一般論。どの会社でも通用しそうで、自社には刺さらない。
「来週の経営会議の議題を、来期予算の承認を最優先に、30分で終わる構成で考えて」
優先順位のついた、そのまま使えそうな具体案に変わる。
同じAIです。賢くなったわけでも、何かを新しく学んだわけでもありません。変わったのは、あなたの言葉だけ。では、その一言は、AIの中の何を動かしたのでしょうか。
まず直感でつかむAIは毎回、「どの言葉に注目するか」を決めている
優れた進行役は、出席者全員の発言を均等に聞いたりしません。「いま何を決めるべきか」に照らして、大事な発言に重みをつけて耳を傾け、それ以外は軽く流します。
LLMもまったく同じことをしています。次の一語を選ぶとき、入力された言葉を均等には見ていません。「いま注目すべき観点」に照らして、どの単語にどれだけ注目するかを配分している。これが、専門用語でいう注意機構(Attention)の正体です。
ここが肝心です。あなたのプロンプトの一言は、この「注目すべき観点」そのものを書き換えます。「予算の承認を最優先に」と書けば、AIは “予算” や “承認” への注目度をぐっと引き上げる。だから、出てくる言葉が変わるのです。
仕組みを見る | 本書唯一の数式パート「注目度」は、3つのステップで計算される
相性を測る ── 注意スコア
まず、「いま注目したい観点」を、一本の矢印(ベクトル)だと思ってください。これを クエリ と呼びます。
一方、入力された各単語も、それぞれの意味を表す矢印を持っています。これを キー と呼びます。
この2本の「相性」を、内積という計算で1つの点数にします。
s)は大きく、逆向きならマイナスになります。下の図で動かしてみてください。 だから “予算” は、あなたの観点 と方向が近く、相性スコア が大きく出ます。「いまは予算の話だ」とAIが気づける、ということです。
注目度に変える ── softmax
スコア は、まだ大小バラバラのただの数字です。これを「合計してちょうど100%になる注目度」に変換します。この変換が softmax(ソフトマックス) ── LLMの心臓部であり、この本でいちばん大事な式です。
いちどに覚えなくて大丈夫です。2つの部品に分けて、順に見ます。
Σ は「全部足す」の記号。全員のスコアの合計で割ることで、全体をきっちり100%にそろえます。 だから は「その単語に何%注目するか」になり、全部足すと必ず 1(=100%)。 文脈をまとめる
最後に、各単語が持つ「中身」── バリュー を、いま求めた注目度 で重みづけして混ぜ合わせます。
発展発展:本物の注意機構(スケール化内積・マルチヘッド)と、最新研究▼ 数式が苦手な方は飛ばしてOK
本文では と単純化しましたが、Transformer(Vaswaniら, 2017「Attention Is All You Need」)の正確な式は次の通りです。
① スケーリング :ベクトルの次元 が大きいと内積が大きくなりすぎ、softmax が一点に飽和して勾配が消えます。次元の平方根で割ることで安定させます。
② マルチヘッド注意:実際は を複数の「ヘッド」に分け、別々の観点で並行して注意を計算し、最後に結合します。1つのヘッドは構文、別のヘッドは共参照…と役割が分かれることが観察されています。本章の図は、その1つのヘッドの概念図です。
③ 最新動向:長い文脈での の計算量は系列長の二乗 で、これが長文脈のコスト要因です。FlashAttention(Daoら)はGPUメモリの使い方を工夫して実質的に高速化し、FlashAttention-2/3 へと発展。推論時には過去の を保存する KVキャッシュ が使われます。
⚠ 正確性の注記:attentionの重みは「モデルが何を根拠にしたか」の説明そのものではありません("attention is not explanation" という議論があります)。あくまで計算上の重み付けです。また出力を担うのは注意だけでなく FFN(全結合層) も中核です。
全部が、つながる瞬間ここまでを、1枚の絵に
相性スコア(Step 1)→ softmaxで注目度に(Step 2)→ 文脈をまとめる(Step 3)。この3つが同時に働くと、あなたの「聞き方」がどう効くのかが、1枚で見えてきます。まず、予想してみてください。
「最優先は予算」と添えたとき、AIが最も強く注目するのはどの言葉だと思いますか?
↑ 濃い言葉ほど、AIが強く注目している
※ わかりやすさのため、注目度は代表的な見方を単語単位で図示しています(実際のモデルでは多数の注目が並行して働きます)。
観点の一言を切り替えるだけで、注目の濃さも、次に出る言葉も入れ替わる。あなたは今、プロンプトが効く仕組みを「見た」のです。
だから、こうなるあなたの「聞き方」は、AIの注目先を書き換えている
もう、最初の謎は解けています。「来期予算の承認を最優先に」という一言は ──
- 観点 を書き換える
- “予算”“承認” への注目度 が跳ね上がる
- 混ぜ合わさる「文脈の要約」が変わる
- 次の一語の確率が変わる
- 出力が変わる
プロンプトとは「お願いの言葉」ではなく、
AIに渡す「注目の設計図」である。
── 次にAIに何かを頼むとき、試してみてください。「最優先は何か」をたった一語そえるだけで、 AIの注目先が動き、答えの芯が変わります。あなたはもう、それがなぜかを知っています。