【ラビットチャレンジ】機械学習:その4 主成分分析

ラビットチャレンジ 機械学習:その4

主成分分析

概要

  • 多変量データの変数の個数を減らす
    • 情報の損失はなるべく小さくする必要がある
  • 具体的には?
    • 学習データの分散が最大になるものを探す

係数ベクトル

  • 線形変換後の値が変わる
    • どう求めるのが良い?
      • 変換後のぶんさんが最大となる射影軸を探索
      • ノルム制約を入れて解く
    • ラグランジュ関数を最大にする係数を求めることになる
  • ラグランジュ関数を最大化する係数を求める

主成分

  • 最大固有値に対応する固有ベクトルで線形変換された特徴量を第一主成分と呼ぶ
  • k番目の固有値に対応する固有ベクトルで変換された特徴量を第k主成分と呼ぶ
  • 寄与率
    • 変換された特徴量のぶんさんは元データの持つ全分散量とも一致
    • 第k主成分の分散の全分散に対する割合を寄与率という

    ※ 例えば100万データを3次元まで主成分に落とした場合、累積寄与率が70%だとすると、3次元圧縮で70%分のデータを保持しているということになる