読書録 - Python クローリング & スクレイピング
Python データサイエンス
今年から Python によるデータサイエンスの勉強をしています。
データサイエンスというからには、まずはデータを集めなければいけない、ということで
Amazon で評判のよかった以下の本を購入して、読んでみました。
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-
- 作者: 加藤耕太
- 出版社/メーカー: 技術評論社
- 発売日: 2016/12/16
- メディア: 大型本
- この商品を含むブログ (2件) を見る
全体を通して感じたこと
この本の「おわりに」にも書いてある一言を痛感しました。
何も持たない個人であっても巨人の肩に乗って技術の力で世界を良くしていける、
プログラミングの面白さが詰まった分野です。
この本では、いろんなライブラリーを駆使してクローリング & スクレイピングするテクニックが書かれています。
今まで C 言語で組み込みソフトをゴリゴリ書いていた人間にとっては、
「こんな複雑なことが、これだけでできちゃうんですか...」
という衝撃を受けるとともに、まさに「巨人の肩に乗って」をしないと、
これからはやっていけないんだなぁとしみじみ思ってしまいました。
こんな人におすすめ
私のように、クローリングやスクレイピングに新しく挑戦する人にとってはとても良い書籍だと思います。
Python 標準ライブラリ、サードパーティライブラリの使い方がとても丁寧に説明されています。
また「どうやったらできる」だけでなく、相手先のサイトに迷惑をかけないための方法もきちんと解説されており、
その書き方にはとても好感が持てました。
ただし、あらかじめ Python の文法についてはある程度知っておく必要があると思います。
とはいっても深い知識が必要なわけではないので、Python スクリプトを書いたことがあるよ~という方なら
読んでいけるのではないかなと思います。
というわけで、広くおすすめできる書籍です。
注意
この本の Appendix に Vagrant による仮想環境の構築方法が書かれています。
どういうわけか自分の環境 (Windows 10 Pro) では、Vagrant 起動時にエラーが出て、共有ディレクトリが
ちゃんと使えないという不具合がありました。
Vagrant のバージョンと Virtual Box のバージョンが合わなかったのかもしれません。
かなり長時間ハマってしまい、結局は Vagrant を使わずに普通に Ubuntu をインストールしたほうが早かったので、
これから環境構築する方はご注意いただければ。
この本を読んで、どう活用する?
ベタですけど株価予測とかに使っていきたいと思います。
ヘボい投資状況についても、そのうちブログで公開予定...