過学習とは

「入門自然言語処理」を久しぶりに読み進める。6.1の教師あり分類。男女の名前を、単純ベイズ分類器で分類するというところ。

素性をどう選べば良い結果を得られるか、という点が丁寧に説明されています。その中で印象に残った一文

もし多すぎる素性を利用してしまった場合、そのアルゴリズムは利用した訓練データの偏りに強く依存してしまって一般化されず、ほかのデータを利用した際に期待される結果が得られなくなってしまう。

なるほど。この問題は過学習と呼ぶらしい。学習データが膨大にあれば、あれこれ素性をとっても一般性を維持できるけど、少ない場合に素性をたくさん使うと、単にその学習データ固有の特徴をモデル化する、ってことをやってしまっていることになるんですかね。ふむふむ考えると当たり前だ。

狭い人間関係に閉じこもり、「世の中の人間はみんなこうだ」って思い込んでしまうのが過学習、「こいつらなんて何十億人のうちのほんの一部だろ、あてにならん」っていうのが適切な学習なのかな。例えがなんだか根暗。