WHATISAI第4章

入れたデータは、
学習されるのか

「社内の機密文書をAIに貼ったら、学習されて、いつか競合の画面に出てこないか?」── 経営者なら当然の不安です。 この章は、その不安に仕組みから答えます。鍵は「事前学習」と「推論」がまったくの別物だ、という一点です。

いちばん多い、経営者の心配「貼ったデータ」はどこへ行くのか

AIを業務に入れるとき、最後に必ず立ちはだかるのがこれです。便利なのは分かった。でも、入力した情報は安全なのか。ここを曖昧にしたままでは、本格導入の判断はできません。

直感 ── 2つの「別物」を分ける

AIには、まったく性質の違う2つの場面があります。事前学習(工場で、出荷前に頭脳を作る作業)と、推論(出荷後、あなたが話しかけて答えてもらう作業)。この2つを混同すると、不安が大きくなりすぎます。

仕組みを見る「事前学習」と「推論」は、別の時間に起きている

事前学習(出荷前)
  • 膨大な文章で「次の一語当て」を反復し、頭脳(パラメータ)を作る
  • 数週間〜数ヶ月、巨大な計算資源
  • ここで「確率の癖」が決まる
  • あなたの会話は、ここには入らない
推論(あなたが使うとき)
  • 出来上がった頭脳で、その場で確率を計算して返すだけ
  • 一瞬で完了
  • パラメータ(頭脳)は1ミリも書き換わらない
  • あなたの入力は、その場の文脈として使われて終わり

つまり、あなたがチャットに貼った文章で、AIがその場で「賢くなる(=記憶する)」ことはありません。推論は、頭脳を固定したまま計算するだけ。会話が終われば、その文脈は(仕組みのうえでは)消えます。

ただし、ここを混同しない「仕組み」と「事業者のデータ方針」は別の話

安心しきる前に、正確に。「その場で学習しない」のは仕組みの話です。一方で、「あなたの会話ログを保存し、将来の学習に使うか」は、サービス事業者のデータ方針の話── これは別問題です。

  • 多くの法人向けプラン・API利用では、入力データを学習に使わないのが一般的(オプトアウトが既定のことも)。
  • 無料の消費者向けサービスでは、改善のためにログが使われる設定がありうる。
  • だから判断は2段で:①仕組み(その場では学習しない)+②契約・設定(ログがどう扱われるか)を必ず確認する。
まず予想してみる

「会話の内容で、AIがその場で賢くなって記憶する」。これは正しい?

発展発展:学習(勾配降下)の中身・ファインチューニング・KVキャッシュは記憶ではない▼ 数式が苦手な方は飛ばしてOK

① 学習とは、誤差を少しずつ減らすこと:事前学習は「次トークン当て」を繰り返し、外した誤差(交差エントロピー L=logP(正解)\mathcal{L}=-\log P(\text{正解}))を勾配降下法でじわじわ小さくする作業です。式で言えば、各パラメータを誤差が減る方向へ少しずつ更新します。

θθηθL\theta \leftarrow \theta - \eta\,\nabla_\theta \mathcal{L}

ここで θ\theta がパラメータ(頭脳)、η\eta が学習率。推論では、この更新が一切起きません。だから「使っても賢くならない/勝手に記憶しない」のです。

② 追加で学習させる = ファインチューニング:出荷後の頭脳に、特定の振る舞いを後から少しだけ学習させるのがファインチューニング。その効率的な方法が LoRA で、応用編でくわしく扱います。これは「会話で勝手に」ではなく、意図して行う別作業です。

③ KVキャッシュは「記憶」ではない:長い会話で過去のやり取りを参照できるのは、文脈ウィンドウに文章が乗っているから。推論を速くするため過去の計算結果を一時保存する「KVキャッシュ」もありますが、これはその会話セッション内の高速化用で、頭脳への永続的な書き込みではありません。ウィンドウから溢れた古い話は「忘れ」ます。

⚠ 正確性の注記:ここで述べたのは標準的な仕組みです。各サービスの実際のデータ取り扱い(保存期間・再学習の有無・地域)は提供事業者の規約・契約・管理設定で確認してください。仕組みが安全でも、運用方針が別であれば結論は変わります。

この章のひとこと

使っても、AIはその場で記憶しない
でも「ログの扱い」は、契約で確かめる。

── 守秘の議論は、これで地に足がつきます。「仕組み上は安全」と「運用上どうか」を分けて語れること自体が、もう一段上の理解です。