Data Wins Argument

データは議論を制する

Santander Value Prediction Challengeをやってみるメモ2

実際データを触る前に事前確認 をいくつかしておこうと思う。

依頼主は?

サンタンデールというスペインの銀行

依頼主の課題は?

一人一人にパーソナライズしたサービスを提案したいが、金融サービスの選択肢が非常に多いため誰に何を提供すれば良いのかよくわからない

なんでこれを予測/分類したいの?

多様化して、競争が激化していく中より競合に対して優位なサービスを提供したいからだと思うけど、何に関するデータなのかは関係がない可能性がある。

kaggleならdiscussion確認した?

なんか、色々Leakでスコアがめっちゃあり得ない状況になっているらしいけど、気にしない。20180716時点。

Discussionを見ていて気になったこと。

  • LBとかLocal CVとか意味がわからない
  • Local CV 1.34 ===> LB score 1.47, Overfitting???
  • Reducing the number of features [1.39 LB]

CVはCross validation, LBはKaggleのLeader Boardの意味でした

[ref] datascience.stackexchange.com

次からEDAとかやっていきます。