子育てしながらエンジニアしたい

現在 7 歳 女の子の子育て中エンジニアによる、技術系 + 日常系ブログ。

Kaggle 初挑戦: タイタニック号の生存予測その 2 - データの補完、加工 -

Kaggle: タイタニック号生存予測シリーズ

データの補完

前回の記事では、まずデータの可視化をしました。
次は欠損しているデータを補完します。
ここでどのように補完するかというところに、前回の結果を利用します。

Jupyter Notebook をブログに表示する方法は以下を参考にしました。

以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。


Kaggle 初挑戦: タイタニック号の生存予測その 1 - データの可視化 -

データサイエンスやろう

今年からデータサイエンスを勉強することにしました。
いわゆるディープラーニングが流行っているから、というのもありますが、
主たる理由は以下のとおりです。

  • 今後来るであろう AI 社会において、「AI に使われる」のではなく、「AI を使う」側にいないといけないから
  • 「AI を使う」には、その原理を知っておく必要があるから。または、知っていたほうが強いから
  • データサイエンスで必要な統計・機械学習といったものは、なんにでも応用がきくから

じゃあ、どうやるの?

基本的には本を読んで、関連ウェブサイトを見て、、ということになりますが、
やはり具体的な課題がないとスキルも身につきません。
なんかないかなぁ~と思っていたら、ピッタリ (と思う) なものがありました。

Kaggle

f:id:edosha:20170412163825p:plain

Kaggle とは

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。

Wikipediaより

いろんな企業が課題を投稿し、それに対しての予測モデルをみんなで作って競うといった感じでしょうか。
みなさんの優れたモデルも見ることができるので、実用的で勉強になりそうです。

さっそく登録し、チュートリアル的な課題「タイタニック号の生存予測」をやることにしました。

ちなみに実行環境は Windows 10 に Anaconda を入れたものです。

Titanic: Machine Learning from Disaster

f:id:edosha:20170412163836p:plain

まずは訓練データ (train.csv) とテストデータ (test.csv) をダウンロードします。
機械学習に入る前に、そもそもどんなデータなのかを見ることが重要とのこと。
なので、Jupyter Notebook を使ってデータの可視化をしてみました。

Jupyter Notebook をブログに表示する方法は以下を参考にしました。

以下の埋め込みが見づらい場合は、Github に同じものをコミットしてあります。


Kaggle: タイタニック号生存予測シリーズ

なぜこのブログを始めたのか?

こんにちは、はじめまして。
最初のブログ投稿は、なぜこのブログを始めたのかについて記載します。

自らの鼓舞

なんといっても自分のためです。

特に、自分はこんなことをやって、こんなふうに成長したということを記録に残すことによって、
今度はこんなことをやってみよう!という動機づけになると思っています。

このエントリーを含め、おそらく昔の記事ほど恥ずかしくなっていく気はしてます。
(昔バンドをやっていたときの日記とか、mixi とか、ブログとかで経験あり)
それでも、「あぁ~こんなしょうもないことを書いてた」自分から、「こんなこと書けるようになった」自分まで、
それも含めて成長かなと前向きに捉えてやってみます。

エンジニアとして、役立つ情報の発信

2007 年から職業エンジニアになって、10 年くらいが経ちました。
その間、いろいろなプロダクトや言語に関わってきました。

これらをなんとかやってこれたのは、素晴らしいエンジニアの方が情報を発信してくれたおかげです。
それがなければ一つもプロダクトができてなかったかもしれません。
その恩返しというと恩着せがましいですが、他の人がつまづく時間だったり、辛い時間を短くするため、
有益な情報を発信できたらいいかなと思います。

ちなみに、昔のしょーもないブログでエンジニア的なことを発信してました。
そんなブログでも「助かりました!」とかのお言葉をいただく機会がそれなりにありました。
が、日々の忙しさでいつの間にか情報発信を止めていたのですが、いろいろ思うところもあり、
情報発信を再開しようと思います。

プロフィールとして

SNS の投稿が採用の決め手になる時代です。
投稿された内容はその人自身の軌跡であり、人格そのものでもあると思います。

でも SNS ってあんまり好きじゃないんです...
たとえばエンジニア的な情報を Facebook で投稿することって、現実的じゃない気がして...

というわけで、自分自身のプロフィールは Facebook でなく、このブログにしようと思います。

これから、どうぞよろしくお願いいたします。

番外編

どうでも良いですが、私はプログラムとかを作るとき、その環境構築に時間をかけます。
というか、環境構築が好きなんです。
ちょっとでも開発効率が上がるような環境ができるとテンションが上がります。
(そのために使った時間と、どっちのほうが長いかという話は聞きません)

というわけで(?)、このブログを始めるときも、まずは環境構築しました。
詳しくは別途書きたいと思いますが、org-mode/emacs でいったん編集したあと、
はてな記法に変換するというやり方が自分に一番合っていそうなので、これでいきたいと思います。

本当にどうでも良い...