WHATISAI｜第1章

AIは結局、
次の一語を当てているだけ

ChatGPTのあの流暢な文章は、どこから来るのか。種を明かすと拍子抜けするほど単純です ── AIは「次に来やすい一語」を選び続けているだけ。この大原則が、ハルシネーション（堂々とした間違い）の正体まで説明します。

誰もが毎日使っているスマホの「予測変換」を、思い出してください

「あけまして」と打つと、スマホが「おめでとう」を勧めてくる。「お世話に」と打てば「なって」が出る。スマホは文の意味を理解しているわけではありません。ただ、過去の膨大な文章から「次に来やすい言葉」を知っているだけです。

LLM（ChatGPTなど）は、これの途方もなく巨大で賢い版です。一語選んだら、それを含めてまた次の一語を選ぶ。これを猛烈な速さで繰り返して、あの長い文章ができあがります。

つまり ── 大原則（“予測”のクセ）

AIは「正しい答え」を探しているのではありません。「ここまでの文章の、自然な続きとして来やすい一語」を、確率で選んでいるだけ。これがすべての出発点です。

仕組み・その1まず、言葉を「数」に変える ── 埋め込み

確率を計算するには、言葉を計算できる形＝数（座標）にしなければなりません。AIは一つひとつの言葉に、何百次元もの座標を割り当てます。これを埋め込み（Embedding）と呼びます。

この座標のすごいところ

座標は適当ではありません。意味が近い言葉どうしは、座標も近くなるように学習されています。だから「社長」と「CEO」はご近所さん、「社長」と「りんご」は遠く離れる。下の地図で確かめてください。

言葉の地図：意味が近い言葉は、空間でも近いどれかの言葉をタップしてください。最も意味の近い3語が線でつながります。色はざっくりした分野（経営／AI／日常）。

↑ どれかをタップしてみてください

※ 実際の座標は数百〜数千次元あります。ここでは見えるように2次元へ押しつぶした近似で、距離はおおまかな目安です。

言葉が「意味の地図」上の住所を持つからこそ、AIは「予算」と「コスト」が近い話だと分かり、文脈に沿った確率を計算できるのです。

仕組み・その2文脈を見て、「次の一語の確率」を並べる

言葉が数になれば、あとは計算です。AIはここまでの文脈を受け取り、次に来うる言葉すべてに確率を割り振ります。「東京は日本の＿」なら「首都」がダントツ。実際に切り替えて見てみましょう。

触って確かめる：AIは「次の一語」を確率で選ぶ例文を切り替えてください。AIは続きとして来やすい言葉ほど高い確率を割り当てます。

東京は日本の＿＿

首都91%

中心4%

象徴3%

玄関口2%

続きとして自然な言葉に、高い確率が集まっています。

だから、こうなるハルシネーション（堂々とした間違い）の正体

3つ目の例に、この章でいちばん大事な発見があります。AIは存在しない会社の創業者を聞かれても、「創業者っぽい名前」を高い確率で、自信ありげに答えてしまう。

理由は、もう分かりますね。AIは事実を調べているのではなく、「確率の高い続き」を選んでいるだけだから。事実かどうかは、そもそも判定していないのです。

AIは次の一語を「確率」で選ぶ（事実の検索ではない）
知らないことでも、もっともらしい語の確率は高くなりうる
だから、堂々と間違える（＝ハルシネーション）

まず予想してみる

ハルシネーションを根本から防ぐには、どうするのが筋が良いと思いますか？

発展発展：トークン・出力層のsoftmax・学習のしくみ・Word2Vec▼ 数式が苦手な方は飛ばしてOK

① トークン（最小単位）：AIが扱うのは厳密には「単語」ではなくトークンです。英語なら単語の一部、日本語なら数文字単位に分割されます（などの手法）。「次の一語」は正確には「次のトークン」。だからAIは、文字数の数え上げや単語のつづりといった「文字単位の作業」が苦手です（文字ではなく、トークンのかたまりで見ているため）。計算が苦手なのも一因はここにありますが、より根本的には「一語ずつ確率で選ぶ」仕組み自体が、桁をまたぐ厳密な計算に向いていないためです。

② 出力層もsoftmax：第2章のsoftmaxは「注意」のためでしたが、最後に語彙全体（十数万〜数十万トークン）に対する確率分布を作るのも、同じsoftmaxです。

P(\text{次トークン}=w \mid \text{文脈}) = \frac{e^{\,z_w}}{\sum_{v} e^{\,z_v}}

ここで $z_w$ は各トークンの生スコア（ロジット）。第3章の temperature は、この $z$ を割り算して分布のとがり具合を変えます。

③ どうやって確率を覚えたか（事前学習）：膨大な文章で「次トークン当て」を繰り返し、外したぶんだけパラメータを少しずつ修正します。誤差の指標は $\mathcal{L}=-\log P(\text{正解トークン})$ で、これを勾配降下法で最小化します。第4章で扱う「学習」とは、この営みのことです。

④ 意味が座標になる証拠（Word2Vec）：有名な例に $\text{king}-\text{man}+\text{woman}\approx\text{queen}$ があります。意味の関係が、ベクトルの足し算引き算で表れる。埋め込みが「意味の地図」である何よりの証拠です。

⚠ 正確性の注記：king−man+woman の例は大規模コーパスでの傾向であり、常に厳密成立するわけではありません。また現代LLMの埋め込みは文脈で動く（同じ語でも文脈で座標が変わる）点が、初期のWord2Vecとの大きな違いです。

この章のひとこと

AIは、賢い「次の一語当てゲーム」。
事実を知っているのではなく、続きを当てているだけ。

── この一点を握れば、「なぜ堂々と間違えるのか」はもう怖くありません。次は、その確率をあなたの言葉が作り替える話（第2章）へ。