n_moriokaのブログ

【ラビットチャレンジ】機械学習：その２非線形回帰モデル

ラビットチャレンジ機械学習：その２

非線形回帰モデル

複雜な非線形構造を内包する事象にフィットさせるために
規定展開法
- 多項式関数
- ガウス型基底関数

正則化

過学習と未学習学習データに対して、十分小さな誤差が得られない：未学習小さな誤差は得られたけど、テスト集合誤差との差が大きい場合：過学習

→ 過学習は正則化法で回避

汎化性能(Generalization)

学習に使用した入力だけでなく、これまで見たことのない新たな入力に対する予測性能

正則化法

モデルの複雑さに伴っtえペナルティ項を課す
ペナルティ項無し：最小２乗推定量
L2ノルムを利用したペナルティ項：Ridge推定量
L1ノルムを利用したペナルティ項：Lasso推定量

Ridgeはなるべく原点に近づけるように推定しようとする → 縮小推定 Lassoはパラメータが0になりやすい、予測に関係しないパラメータを無視できる → スパース推定

※ 成約の幾何学図が何を意味しているのか？ → 複雜なモデルでは、バリアンスが高い状態になってしまう → 縮小推定をするとバリアンスを下げる

※ 線形回帰についても過学習が発生する可能性はある → パラメータが複数ある場合にモデル選択に失敗する可能性がある

モデル選択

ホールドアウト法

手元のデータを２つに分割して学習用とテスト用に使い予測精度や誤り率を推定するために使用する方法
- 有限のデータだと分割データ数が足りない
- データが大量にないと厳しい

クロスバリデーション(交差検証)

データを学習用とテスト用に分割するセットを複数回繰り返す
少ないデータでも精度を上げることが可能

※ ML08での正則化の質問は何回か見て理解したいかもしれない