丹羽の卒論日誌

python

5/21

model = tree.DecisionTreeClassifier(max_depth = 5,
random_state = 0,class_weight ='balanced')

は不均衡データで比率の大きいデータの影響力を小さくし,比率の小さいデータの影響力を大きくするため分岐条件を考える際の影響度という点で均一になり,予測性能の高いモデルを作れる確率が上がる.

mean()

すると文字列列を自動無視してくれました。

今の pandas は:

「文字列があるならエラーにする」

という仕様になっています。

今後のコツ

groupby().mean() を使うときは、

['Age'] ['Fare'] ['Survived']

みたいに、

「どの数値列を平均するか」

を明示すると安全です。


5/20

今まで扱っていたデータは(例)アヤメの種類分別   では3種類の正解データがそれぞれ50種類均等にあったが,今回行う客船沈没事故での生存予測では正解データである死亡者データが549件,生存者データが342件と正解データの件数の比率に差が生じている. このようなデータを不均衡データという.

・決定木モデルは他のモデルに比べ,外れ値の影響を受けにくい.

データの比率に違いがあることで起きる問題

例えば生存者データが5%,死亡者データが95%であった場合,モデルは法則など関係なくとりあえず死亡とすれば正解してしまうため,よくない.

5/18

明日以降は例題のコードを一から打つのではなく,修正だけしていく

http://www.str.ce.akita-u.ac.jp/~gotouhan/j2025/niwa/abcd.png

http://www.str.ce.akita-u.ac.jp/~gotouhan/j2025/niwa/b.png


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS