WHATISAI｜第4章

入れたデータは、
学習されるのか

「社内の機密文書をAIに貼ったら、学習されて、いつか競合の画面に出てこないか？」── 経営者なら当然の不安です。この章は、その不安に仕組みから答えます。鍵は「事前学習」と「推論」がまったくの別物だ、という一点です。

いちばん多い、経営者の心配「貼ったデータ」はどこへ行くのか

AIを業務に入れるとき、最後に必ず立ちはだかるのがこれです。便利なのは分かった。でも、入力した情報は安全なのか。ここを曖昧にしたままでは、本格導入の判断はできません。

直感 ── 2つの「別物」を分ける

AIには、まったく性質の違う2つの場面があります。事前学習（工場で、出荷前に頭脳を作る作業）と、推論（出荷後、あなたが話しかけて答えてもらう作業）。この2つを混同すると、不安が大きくなりすぎます。

仕組みを見る「事前学習」と「推論」は、別の時間に起きている

事前学習（出荷前）

膨大な文章で「次の一語当て」を反復し、頭脳（パラメータ）を作る
数週間〜数ヶ月、巨大な計算資源
ここで「確率の癖」が決まる
あなたの会話は、ここには入らない

推論（あなたが使うとき）

出来上がった頭脳で、その場で確率を計算して返すだけ
一瞬で完了
パラメータ（頭脳）は1ミリも書き換わらない
あなたの入力は、その場の文脈として使われて終わり

つまり、あなたがチャットに貼った文章で、AIがその場で「賢くなる（＝記憶する）」ことはありません。推論は、頭脳を固定したまま計算するだけ。会話が終われば、その文脈は（仕組みのうえでは）消えます。

ただし、ここを混同しない「仕組み」と「事業者のデータ方針」は別の話

安心しきる前に、正確に。「その場で学習しない」のは仕組みの話です。一方で、「あなたの会話ログを保存し、将来の学習に使うか」は、サービス事業者のデータ方針の話── これは別問題です。

多くの法人向けプラン・API利用では、入力データを学習に使わないのが一般的（オプトアウトが既定のことも）。
無料の消費者向けサービスでは、改善のためにログが使われる設定がありうる。
だから判断は2段で：①仕組み（その場では学習しない）＋②契約・設定（ログがどう扱われるか）を必ず確認する。

まず予想してみる

「会話の内容で、AIがその場で賢くなって記憶する」。これは正しい？

発展発展：学習（勾配降下）の中身・ファインチューニング・KVキャッシュは記憶ではない▼ 数式が苦手な方は飛ばしてOK

① 学習とは、誤差を少しずつ減らすこと：事前学習は「次トークン当て」を繰り返し、外した誤差（交差エントロピー $\mathcal{L}=-\log P(\text{正解})$ ）を勾配降下法でじわじわ小さくする作業です。式で言えば、各パラメータを誤差が減る方向へ少しずつ更新します。

\theta \leftarrow \theta - \eta\,\nabla_\theta \mathcal{L}

ここで $\theta$ がパラメータ（頭脳）、 $\eta$ が学習率。推論では、この更新が一切起きません。だから「使っても賢くならない／勝手に記憶しない」のです。

② 追加で学習させる＝ファインチューニング：出荷後の頭脳に、特定の振る舞いを後から少しだけ学習させるのがファインチューニング。その効率的な方法が LoRA で、応用編でくわしく扱います。これは「会話で勝手に」ではなく、意図して行う別作業です。

③ KVキャッシュは「記憶」ではない：長い会話で過去のやり取りを参照できるのは、文脈ウィンドウに文章が乗っているから。推論を速くするため過去の計算結果を一時保存する「KVキャッシュ」もありますが、これはその会話セッション内の高速化用で、頭脳への永続的な書き込みではありません。ウィンドウから溢れた古い話は「忘れ」ます。

⚠ 正確性の注記：ここで述べたのは標準的な仕組みです。各サービスの実際のデータ取り扱い（保存期間・再学習の有無・地域）は提供事業者の規約・契約・管理設定で確認してください。仕組みが安全でも、運用方針が別であれば結論は変わります。

この章のひとこと

使っても、AIはその場で記憶しない。
でも「ログの扱い」は、契約で確かめる。

── 守秘の議論は、これで地に足がつきます。「仕組み上は安全」と「運用上どうか」を分けて語れること自体が、もう一段上の理解です。