WHATISAI第1章

AIは結局、
次の一語を当てているだけ

ChatGPTのあの流暢な文章は、どこから来るのか。種を明かすと拍子抜けするほど単純です ── AIは「次に来やすい一語」を選び続けているだけ。この大原則が、ハルシネーション(堂々とした間違い)の正体まで説明します。

誰もが毎日使っているスマホの「予測変換」を、思い出してください

「あけまして」と打つと、スマホが「おめでとう」を勧めてくる。「お世話に」と打てば「なって」が出る。スマホは文の意味を理解しているわけではありません。ただ、過去の膨大な文章から「次に来やすい言葉」を知っているだけです。

LLM(ChatGPTなど)は、これの途方もなく巨大で賢い版です。一語選んだら、それを含めてまた次の一語を選ぶ。これを猛烈な速さで繰り返して、あの長い文章ができあがります。

つまり ── 大原則(レンズ①)

AIは「正しい答え」を探しているのではありません。「ここまでの文章の、自然な続きとして来やすい一語」を、確率で選んでいるだけ。これがすべての出発点です。

仕組み・その1まず、言葉を「数」に変える ── 埋め込み

確率を計算するには、言葉を計算できる形=数(座標)にしなければなりません。AIは一つひとつの言葉に、何百次元もの座標を割り当てます。これを埋め込み(Embedding)と呼びます。

この座標のすごいところ
座標は適当ではありません。意味が近い言葉どうしは、座標も近くなるように学習されています。だから「社長」と「CEO」はご近所さん、「社長」と「りんご」は遠く離れる。下の地図で確かめてください。
言葉の地図:意味が近い言葉は、空間でも近いどれかの言葉をタップしてください。最も意味の近い3語が線でつながります。色はざっくりした分野(経営/AI/日常)。
社長経営戦略予算CEOAIアルゴリズムデータクラウドりんご

↑ どれかをタップしてみてください

※ 実際の座標は数百〜数千次元あります。ここでは見えるように2次元へ押しつぶした近似で、距離はおおまかな目安です。

言葉が「意味の地図」上の住所を持つからこそ、AIは「予算」と「コスト」が近い話だと分かり、文脈に沿った確率を計算できるのです。

仕組み・その2文脈を見て、「次の一語の確率」を並べる

言葉が数になれば、あとは計算です。AIはここまでの文脈を受け取り、次に来うる言葉すべてに確率を割り振ります。「東京は日本の_」なら「首都」がダントツ。実際に切り替えて見てみましょう。

触って確かめる:AIは「次の一語」を確率で選ぶ例文を切り替えてください。AIは続きとして来やすい言葉ほど高い確率を割り当てます。

東京は日本の__

首都91%
中心4%
象徴3%
玄関口2%

続きとして自然な言葉に、高い確率が集まっています。

だから、こうなるハルシネーション(堂々とした間違い)の正体

3つ目の例に、この章でいちばん大事な発見があります。AIは存在しない会社の創業者を聞かれても、「創業者っぽい名前」を高い確率で、自信ありげに答えてしまう

理由は、もう分かりますね。AIは事実を調べているのではなく、「確率の高い続き」を選んでいるだけだから。事実かどうかは、そもそも判定していないのです。

  1. AIは次の一語を「確率」で選ぶ(事実の検索ではない)
  2. 知らないことでも、もっともらしい語の確率は高くなりうる
  3. だから、堂々と間違える(=ハルシネーション)
まず予想してみる

ハルシネーションを根本から防ぐには、どうするのが筋が良いと思いますか?

発展発展:トークン・出力層のsoftmax・学習のしくみ・Word2Vec▼ 数式が苦手な方は飛ばしてOK

① トークン(最小単位):AIが扱うのは厳密には「単語」ではなくトークンです。英語なら単語の一部、日本語なら数文字単位に分割されます(BPEなどの手法)。「次の一語」は正確には「次のトークン」。だからAIは、文字数の数え上げや単語のつづりといった「文字単位の作業」が苦手です(文字ではなく、トークンのかたまりで見ているため)。計算が苦手なのも一因はここにありますが、より根本的には「一語ずつ確率で選ぶ」仕組み自体が、桁をまたぐ厳密な計算に向いていないためです。

② 出力層もsoftmax:第2章のsoftmaxは「注意」のためでしたが、最後に語彙全体(数万トークン)に対する確率分布を作るのも、同じsoftmaxです。

P(次トークン=w文脈)=ezwvezvP(\text{次トークン}=w \mid \text{文脈}) = \frac{e^{\,z_w}}{\sum_{v} e^{\,z_v}}

ここで zwz_w は各トークンの生スコア(ロジット)。第3章の temperature は、この zz を割り算して分布のとがり具合を変えます。

③ どうやって確率を覚えたか(事前学習):膨大な文章で「次トークン当て」を繰り返し、外したぶんだけパラメータを少しずつ修正します。誤差の指標は交差エントロピー L=logP(正解トークン)\mathcal{L}=-\log P(\text{正解トークン}) で、これを勾配降下法で最小化します。第4章で扱う「学習」とは、この営みのことです。

④ 意味が座標になる証拠(Word2Vec):有名な例に kingman+womanqueen\text{king}-\text{man}+\text{woman}\approx\text{queen} があります。意味の関係が、ベクトルの足し算引き算で表れる。埋め込みが「意味の地図」である何よりの証拠です。

⚠ 正確性の注記:king−man+woman の例は大規模コーパスでの傾向であり、常に厳密成立するわけではありません。また現代LLMの埋め込みは文脈で動く(同じ語でも文脈で座標が変わる)点が、初期のWord2Vecとの大きな違いです。

この章のひとこと

AIは、賢い「次の一語当てゲーム」
事実を知っているのではなく、続きを当てているだけ。

── この一点を握れば、「なぜ堂々と間違えるのか」はもう怖くありません。次は、その確率をあなたの言葉が作り替える話(第2章)へ。