Kaggle 初挑戦: タイタニック号の生存予測その 1 - データの可視化 -

今年からデータサイエンスを勉強することにしました。
いわゆるディープラーニングが流行っているから、というのもありますが、
主たる理由は以下のとおりです。

基本的には本を読んで、関連ウェブサイトを見て、、ということになりますが、
やはり具体的な課題がないとスキルも身につきません。
なんかないかなぁ～と思っていたら、ピッタリ (と思う) なものがありました。

f:id:edosha:20170412163825p:plain

Kaggle とは

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
Wikipediaより

いろんな企業が課題を投稿し、それに対しての予測モデルをみんなで作って競うといった感じでしょうか。
みなさんの優れたモデルも見ることができるので、実用的で勉強になりそうです。

さっそく登録し、チュートリアル的な課題「タイタニック号の生存予測」をやることにしました。

ちなみに実行環境は Windows 10 に Anaconda を入れたものです。

f:id:edosha:20170412163836p:plain

まずは訓練データ (train.csv) とテストデータ (test.csv) をダウンロードします。
機械学習に入る前に、そもそもどんなデータなのかを見ることが重要とのこと。
なので、Jupyter Notebook を使ってデータの可視化をしてみました。

Jupyter Notebook をブログに表示する方法は以下を参考にしました。

以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。

子育てしながらエンジニアしたい