丹羽の卒論日誌の履歴(No.6) - PukiWiki

[ トップ ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ]

丹羽の卒論日誌

python
- 5/25
- 5/21
- 5/20
データの比率に違いがあることで起きる問題
- 5/18

python†

PEP 668 以降は、「pip install 〜は仮想環境の中で行う」が前提条件になった．
仮想環境の設定は以下
```
python3 -m venv .venv(最初のみ)
source .venv/bin/activate　←仮想環境に入る
これでpip installができる
deactivate ←仮想環境から出る
```
コマンドの表示と実行 →python:インタープリターを選択 →VSコードでも仮想環境に入ることができる

5/25†

・axis=0 → 縦方向（行をまたぐ）
・axis=1 → 横方向（列をまたぐ）

・前回まではホールドアウト法によってデータをテストデータと訓練データに分割したが，トライ&エラーを繰り返しているうちにテストデータに都合がいいようにチューニングしていると言える．

→したがってこの問題に対処するために，
　①学習に使用するデータ
　②学習には使用せずにチューニングの参考に使用するデータ
　③チューニングを行った最終的な学習済みモデルに対して予測性能を評価するためのテストデータ
　の3つに分割する．

5/21†

model = tree.DecisionTreeClassifier(max_depth = 5,
random_state = 0,class_weight ='balanced')

は不均衡データで比率の大きいデータの影響力を小さくし，比率の小さいデータの影響力を大きくするため分岐条件を考える際の影響度という点で均一になり，予測性能の高いモデルを作れる確率が上がる．

昔の pandas は：

mean()

すると文字列列を自動無視してくれました。

今の pandas は：

「文字列があるならエラーにする」

という仕様になっています。

今後のコツ

groupby().mean() を使うときは、

['Age'] ['Fare'] ['Survived']

みたいに、

「どの数値列を平均するか」

を明示すると安全です。

決定木を深くするということはたくさんの分岐条件を設定することができる
→モデルの構成がより複雑になる
→予測性能が上がるわけではない．
複雑なモデルであればあるほど訓練データの予測性能は上がるが一方でテストデータでの予測性能は低くなるという減少が起こる．この現象を過学習という．

このような現象が起こる理由：
構造が複雑であればあるほど，訓練データだけに当てはまる条件まで考慮してしまうから．

過学習は決定木の場合は木の深さを増やしすぎる，重回帰の場合は特徴量の列を増やしすぎると起こりやすいことが知られている．

過学習を起こさずにモデルの予測性能を上げる一般的な方法：
・データ数を増やす
・データの前処理の仕方を変える
・モデルの学習時の設定を変える
・そもそもの分析方法を変える

5/20†

今まで扱っていたデータは（例）アヤメの種類分別　　　では３種類の正解データがそれぞれ５０種類均等にあったが，今回行う客船沈没事故での生存予測では正解データである死亡者データが５４９件，生存者データが３４２件と正解データの件数の比率に差が生じている．このようなデータを不均衡データという．

・決定木モデルは他のモデルに比べ，外れ値の影響を受けにくい．

データの比率に違いがあることで起きる問題†

例えば生存者データが５％，死亡者データが９５％であった場合，モデルは法則など関係なくとりあえず死亡とすれば正解してしまうため，よくない．

5/18†

明日以降は例題のコードを一から打つのではなく，修正だけしていく