Kaggle 初挑戦: タイタニック号の生存予測その 2 - データの補完、加工 -
Kaggle: タイタニック号生存予測シリーズ
- その1: データの可視化
- その2: データの補完、加工 <-- この記事
- その3: ニューラルネットワークによる予測
データの補完
前回の記事では、まずデータの可視化をしました。
次は欠損しているデータを補完します。
ここでどのように補完するかというところに、前回の結果を利用します。
Jupyter Notebook をブログに表示する方法は以下を参考にしました。
以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。
参考
- Titanic 関連
- Seaborn 関連
- Markdown 関連
Kaggle 初挑戦: タイタニック号の生存予測その 1 - データの可視化 -
データサイエンスやろう
今年からデータサイエンスを勉強することにしました。
いわゆるディープラーニングが流行っているから、というのもありますが、
主たる理由は以下のとおりです。
- 今後来るであろう AI 社会において、「AI に使われる」のではなく、「AI を使う」側にいないといけないから
- 「AI を使う」には、その原理を知っておく必要があるから。または、知っていたほうが強いから
- データサイエンスで必要な統計・機械学習といったものは、なんにでも応用がきくから
じゃあ、どうやるの?
基本的には本を読んで、関連ウェブサイトを見て、、ということになりますが、
やはり具体的な課題がないとスキルも身につきません。
なんかないかなぁ~と思っていたら、ピッタリ (と思う) なものがありました。
Kaggle
Kaggle とは
Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
いろんな企業が課題を投稿し、それに対しての予測モデルをみんなで作って競うといった感じでしょうか。
みなさんの優れたモデルも見ることができるので、実用的で勉強になりそうです。
さっそく登録し、チュートリアル的な課題「タイタニック号の生存予測」をやることにしました。
ちなみに実行環境は Windows 10 に Anaconda を入れたものです。
Titanic: Machine Learning from Disaster
まずは訓練データ (train.csv) とテストデータ (test.csv) をダウンロードします。
機械学習に入る前に、そもそもどんなデータなのかを見ることが重要とのこと。
なので、Jupyter Notebook を使ってデータの可視化をしてみました。
Jupyter Notebook をブログに表示する方法は以下を参考にしました。
以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。
参考
- Titanic 関連
- Seaborn 関連
- Markdown 関連
Kaggle: タイタニック号生存予測シリーズ
- その1: データの可視化 <-- この記事
- その2: データの補完、加工
- その3: ニューラルネットワークによる予測
なぜこのブログを始めたのか?
こんにちは、はじめまして。
最初のブログ投稿は、なぜこのブログを始めたのかについて記載します。
自らの鼓舞
なんといっても自分のためです。
特に、自分はこんなことをやって、こんなふうに成長したということを記録に残すことによって、
今度はこんなことをやってみよう!という動機づけになると思っています。
このエントリーを含め、おそらく昔の記事ほど恥ずかしくなっていく気はしてます。
(昔バンドをやっていたときの日記とか、mixi とか、ブログとかで経験あり)
それでも、「あぁ~こんなしょうもないことを書いてた」自分から、「こんなこと書けるようになった」自分まで、
それも含めて成長かなと前向きに捉えてやってみます。
エンジニアとして、役立つ情報の発信
2007 年から職業エンジニアになって、10 年くらいが経ちました。
その間、いろいろなプロダクトや言語に関わってきました。
- 2007 ~ 2008
- 2008 ~ 2011
- 2011 ~ 2014
- 2014 ~ 2015
- (MBA)
- 2015 ~
これらをなんとかやってこれたのは、素晴らしいエンジニアの方が情報を発信してくれたおかげです。
それがなければ一つもプロダクトができてなかったかもしれません。
その恩返しというと恩着せがましいですが、他の人がつまづく時間だったり、辛い時間を短くするため、
有益な情報を発信できたらいいかなと思います。
ちなみに、昔のしょーもないブログでエンジニア的なことを発信してました。
そんなブログでも「助かりました!」とかのお言葉をいただく機会がそれなりにありました。
が、日々の忙しさでいつの間にか情報発信を止めていたのですが、いろいろ思うところもあり、
情報発信を再開しようと思います。