ロジスティック回帰

分類問題(ウラス分類)

入力
- m次元のベクトル
出力
- 0 or 1

シグモイド関数

入力ドメインは実数空間
出力は必ず 0 〜 1の値になる
パラメータが変わるとシグモイド関数の形が変わる
シグモイド関数の微分は、シグモイド関数自身で表現することが可能
- MSEの尤度関数で利用する場合など、最小値を求めるときに有利

ロジスティック回帰モデル

分類問題を解くため􏱘教師あり機械学習モデル (教師データから学習 )
- 入力とm次元パラメータ􏱘線形結合をシグモイド関数に入力
- 出力􏱙y=1になる確率􏱘値になる
データYは確率が0.5以上なら􏱚1・未満なら0と予測

尤度関数

尤度とは、あるデータを得たときに分布のパラメータが特定の値であることがどれほどありえそうかを表現したもの
- 確率はパラメータを固定してデータが変化
- 尤度はデータを固定してパラメータが変化
ベルヌーイ分布に従う
モデルの出力Yが１となる確率とYが0になる確率を以下で表記
- P(Y = 1 | x) = p
- P(Y = 0 | x) = 1 - P(Y = 1 | x) = 1 - p
確率変数Yはベルヌーイ施行に従う

同時確率

学習データ・セットが同時に得られる確率を計算
観測されたデータ(学習データ)を発生させる尤もらしい確率分布を求める
尤度関数を最大にするパラメータを推定パラメータとする

対数尤度関数の最大化

尤度関数を最大化するよりも、対数尤度関数を最大化する方が楽
- 咳が和、指数が積の演算に変換出来る
- 対数尤度関数が最大になる点と尤度関数が最大になる点は同じ
- 平均二乗誤差は最小化、尤度関数は最大化はややこしいので、対数尤度関数にマイナスを掛けて「最小化」で統一

勾配降下法

Gradient descent
反復学習によりパラメータを逐次的に更新するアプローチの一つ
ηは学習率と呼ばれるハイパーパラメータでモデルの収束しやすさを調整
パラメータが更新されなくなった場合、それ􏱙勾配が0になったということ。少なくとも反復学習で探索した範囲では最適な解がもとめられたことになる
勾配降下法では、パラメータを更新する􏱘にN個全て􏱘データに対する和を求める必要がある。

※ 確率的勾配降下法(SDG)はDeep Learningで利用することが多いので、そちらでも学習してみてね

動画による説明(SDG)

Deep Learningでのサンプルを想定
尤度が高いところへ収束していっている
- サンプルでは山が２つ
学習率が大きくなると、動画での尤度探索の移動量が増えるイメージ
- 最初は大きくても良いが、最尤近くになったら小さくしたい

※ ガウス型基底の話は試験に出てくる？ → 優先度は高くないが、現場では一般的に出てくる　ただし、理解するにはかなり複雜そう

モデルの評価

混同行列

True Positive
False Positive
False Negative
True Negative
True/False 予測の成否
Positive/Negative 予測の結果

正解率

(TP + TN) / (TP + FN + FP + TN)
正解した数と予測した全データ数の割合
データに偏りがあった場合に問題になることがある
- 単純な正解率はあまり意味をなさない

適合率

TP / (TP + FP)
誤りが覆うてもヌケモレを少なくしたい
- メールのスパム判定の例としては、スパムがすり抜けて届く方がベター

再現率

TP / (TP + FN)
見逃しが多くても、正確な予想をしたい
病気の陽性判定の例、再度検査をすればよいため

F値

適合率と再現率はトレードオフの関係にあるため、２つの調和平均を取る
バランスを取りたい場合に利用

ハンズオン(タイタニック号データ)

欠損値があるデータ

無視する
欠損値が無い情報で補完する
回帰を使って補完する

処理の進め方

2変量に絞る
Ageが欠損しているので、AgeFillカラムを追加　
- Ageカラムのnullを中央値で補完
- 元のAgeカラムは残しておく

※ Pythonの実行でエラーが出ても結果は出ているみたい(LogisticRegression().fit)

DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().

ハンズオン２ (2変数から生死を判別)

※ pythonのオープンソースを使うとかなり簡単に実現出来る。難しい微分とかは出てこない　バックエンドはパッと書いてしまって、フロントにこだわるのもあり。REST APIとか

※ 図示化して表示してあげると色々な人を説得しやすい

ハンズオン３(混同行列とクロスバリデーション)

※ ヒートマップも上司に喜ばれるかも

※ きれいな図を書くなら、Seabornがおすすめ　matplotlibのラッパー。もう少しきれいに書ける

スクリーンショット

f:id:n_morioka:20190527004845p:plain

2019-05-27

【ラビットチャレンジ】機械学習：その２非線形回帰モデル

ラビットチャレンジ機械学習：その２

非線形回帰モデル

複雜な非線形構造を内包する事象にフィットさせるために
規定展開法
- 多項式関数
- ガウス型基底関数

正則化

過学習と未学習学習データに対して、十分小さな誤差が得られない：未学習小さな誤差は得られたけど、テスト集合誤差との差が大きい場合：過学習

→ 過学習は正則化法で回避

汎化性能(Generalization)

学習に使用した入力だけでなく、これまで見たことのない新たな入力に対する予測性能

正則化法

モデルの複雑さに伴っtえペナルティ項を課す
ペナルティ項無し：最小２乗推定量
L2ノルムを利用したペナルティ項：Ridge推定量
L1ノルムを利用したペナルティ項：Lasso推定量

Ridgeはなるべく原点に近づけるように推定しようとする → 縮小推定 Lassoはパラメータが0になりやすい、予測に関係しないパラメータを無視できる → スパース推定

※ 成約の幾何学図が何を意味しているのか？ → 複雜なモデルでは、バリアンスが高い状態になってしまう → 縮小推定をするとバリアンスを下げる

※ 線形回帰についても過学習が発生する可能性はある → パラメータが複数ある場合にモデル選択に失敗する可能性がある

モデル選択

ホールドアウト法

手元のデータを２つに分割して学習用とテスト用に使い予測精度や誤り率を推定するために使用する方法
- 有限のデータだと分割データ数が足りない
- データが大量にないと厳しい

クロスバリデーション(交差検証)

データを学習用とテスト用に分割するセットを複数回繰り返す
少ないデータでも精度を上げることが可能

※ ML08での正則化の質問は何回か見て理解したいかもしれない

2019-05-27

【ラビットチャレンジ】機械学習：その１線形回帰モデル

ラビットチャレンジ機械学習：その１

機械学習の基本的な手法を理解し実装する
機械学習モデリングの流れを理解

機械学習 モデリングプロセス

問題設定
- 機械学習が必要なければ使う必要もない
- 「仕事ではじめる機械学習」の著者も言っている
- 機械学習のデメリット
  - 技術的ハードルが高い
    - 運用者のことまで考えられるか？
  - テストも難しい
データ選定
データの前処理
機械学習モデルの選定
- 線形回帰
- ロジスティック回帰
- SVM
- 主成分分析(PCA)
モデルの学習
モデルの評価