WHATISAI|第4章
入れたデータは、
学習されるのか
「社内の機密文書をAIに貼ったら、学習されて、いつか競合の画面に出てこないか?」── 経営者なら当然の不安です。 この章は、その不安に仕組みから答えます。鍵は「事前学習」と「推論」がまったくの別物だ、という一点です。
いちばん多い、経営者の心配「貼ったデータ」はどこへ行くのか
AIを業務に入れるとき、最後に必ず立ちはだかるのがこれです。便利なのは分かった。でも、入力した情報は安全なのか。ここを曖昧にしたままでは、本格導入の判断はできません。
AIには、まったく性質の違う2つの場面があります。事前学習(工場で、出荷前に頭脳を作る作業)と、推論(出荷後、あなたが話しかけて答えてもらう作業)。この2つを混同すると、不安が大きくなりすぎます。
仕組みを見る「事前学習」と「推論」は、別の時間に起きている
- 膨大な文章で「次の一語当て」を反復し、頭脳(パラメータ)を作る
- 数週間〜数ヶ月、巨大な計算資源
- ここで「確率の癖」が決まる
- あなたの会話は、ここには入らない
- 出来上がった頭脳で、その場で確率を計算して返すだけ
- 一瞬で完了
- パラメータ(頭脳)は1ミリも書き換わらない
- あなたの入力は、その場の文脈として使われて終わり
つまり、あなたがチャットに貼った文章で、AIがその場で「賢くなる(=記憶する)」ことはありません。推論は、頭脳を固定したまま計算するだけ。会話が終われば、その文脈は(仕組みのうえでは)消えます。
ただし、ここを混同しない「仕組み」と「事業者のデータ方針」は別の話
安心しきる前に、正確に。「その場で学習しない」のは仕組みの話です。一方で、「あなたの会話ログを保存し、将来の学習に使うか」は、サービス事業者のデータ方針の話── これは別問題です。
- 多くの法人向けプラン・API利用では、入力データを学習に使わないのが一般的(オプトアウトが既定のことも)。
- 無料の消費者向けサービスでは、改善のためにログが使われる設定がありうる。
- だから判断は2段で:①仕組み(その場では学習しない)+②契約・設定(ログがどう扱われるか)を必ず確認する。
「会話の内容で、AIがその場で賢くなって記憶する」。これは正しい?
発展発展:学習(勾配降下)の中身・ファインチューニング・KVキャッシュは記憶ではない▼ 数式が苦手な方は飛ばしてOK
① 学習とは、誤差を少しずつ減らすこと:事前学習は「次トークン当て」を繰り返し、外した誤差(交差エントロピー )を勾配降下法でじわじわ小さくする作業です。式で言えば、各パラメータを誤差が減る方向へ少しずつ更新します。
ここで がパラメータ(頭脳)、 が学習率。推論では、この更新が一切起きません。だから「使っても賢くならない/勝手に記憶しない」のです。
② 追加で学習させる = ファインチューニング:出荷後の頭脳に、特定の振る舞いを後から少しだけ学習させるのがファインチューニング。その効率的な方法が LoRA で、応用編でくわしく扱います。これは「会話で勝手に」ではなく、意図して行う別作業です。
③ KVキャッシュは「記憶」ではない:長い会話で過去のやり取りを参照できるのは、文脈ウィンドウに文章が乗っているから。推論を速くするため過去の計算結果を一時保存する「KVキャッシュ」もありますが、これはその会話セッション内の高速化用で、頭脳への永続的な書き込みではありません。ウィンドウから溢れた古い話は「忘れ」ます。
⚠ 正確性の注記:ここで述べたのは標準的な仕組みです。各サービスの実際のデータ取り扱い(保存期間・再学習の有無・地域)は提供事業者の規約・契約・管理設定で確認してください。仕組みが安全でも、運用方針が別であれば結論は変わります。
使っても、AIはその場で記憶しない。
でも「ログの扱い」は、契約で確かめる。
── 守秘の議論は、これで地に足がつきます。「仕組み上は安全」と「運用上どうか」を分けて語れること自体が、もう一段上の理解です。