丹羽の卒論日誌

python

5/20

今まで扱っていたデータは(例)アヤメの種類分別   では3種類の正解データがそれぞれ50種類均等にあったが,今回行う客船沈没事故での生存予測では正解データである死亡者データが549件,生存者データが342件と正解データの件数の比率に差が生じている. このようなデータを不均衡データという.

・決定木モデルは他のモデルに比べ,外れ値の影響を受けにくい.

データの比率に違いがあることで起きる問題

例えば生存者データが5%,死亡者データが95%であった場合,モデルは法則など関係なくとりあえず死亡とすれば正解してしまうため,よくない.

5/18

明日以降は例題のコードを一から打つのではなく,修正だけしていく

http://www.str.ce.akita-u.ac.jp/~gotouhan/j2025/niwa/abcd.png

http://www.str.ce.akita-u.ac.jp/~gotouhan/j2025/niwa/b.png


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS