Kaggle 初挑戦: タイタニック号の生存予測その 1 - データの可視化 -
データサイエンスやろう
今年からデータサイエンスを勉強することにしました。
いわゆるディープラーニングが流行っているから、というのもありますが、
主たる理由は以下のとおりです。
- 今後来るであろう AI 社会において、「AI に使われる」のではなく、「AI を使う」側にいないといけないから
- 「AI を使う」には、その原理を知っておく必要があるから。または、知っていたほうが強いから
- データサイエンスで必要な統計・機械学習といったものは、なんにでも応用がきくから
じゃあ、どうやるの?
基本的には本を読んで、関連ウェブサイトを見て、、ということになりますが、
やはり具体的な課題がないとスキルも身につきません。
なんかないかなぁ~と思っていたら、ピッタリ (と思う) なものがありました。
Kaggle
Kaggle とは
Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
いろんな企業が課題を投稿し、それに対しての予測モデルをみんなで作って競うといった感じでしょうか。
みなさんの優れたモデルも見ることができるので、実用的で勉強になりそうです。
さっそく登録し、チュートリアル的な課題「タイタニック号の生存予測」をやることにしました。
ちなみに実行環境は Windows 10 に Anaconda を入れたものです。
Titanic: Machine Learning from Disaster
まずは訓練データ (train.csv) とテストデータ (test.csv) をダウンロードします。
機械学習に入る前に、そもそもどんなデータなのかを見ることが重要とのこと。
なので、Jupyter Notebook を使ってデータの可視化をしてみました。
Jupyter Notebook をブログに表示する方法は以下を参考にしました。
以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。
参考
- Titanic 関連
- Seaborn 関連
- Markdown 関連
Kaggle: タイタニック号生存予測シリーズ
- その1: データの可視化 <-- この記事
- その2: データの補完、加工
- その3: ニューラルネットワークによる予測