子育てしながらエンジニアしたい

現在 7 歳 女の子の子育て中エンジニアによる、技術系 + 日常系ブログ。

SIGNATE で COVID-19 チャレンジ開催

日本版 Kaggle ともいえる SIGNATE で、COVID-19 チャレンジが開催されています。

signate.jp

医療関係者でなくても、データサイエンティストでなくても参加できます。
COVID-19 の早期理解、そして今後の対策のために参加してみてはいかがでしょうか。

SIGNATE COVID-19 Challenge

現時点における日本国内のCOVID-19に関する情報は、国や自治体などで配信方針がバラバラであり、テキスト形式やPDF形式、画像形式などの非構造データで配信されているものも多く、一元的・網羅的でマシンリーダブルかつデータ分析可能な状態になっていないのが実情です。また、罹患者数などの統計データだけではなく、罹患者一人一人に関する感染背景や症状など、できるだけ詳細な情報を網羅的に収集し、データ分析が可能な状態で共有することは、今後の感染対策や治療方針の策定に有用であると考えられますが、このようなデータセットは海外でも未だ公開されていません。

そこで、これらの状況を打破するべく「COVID-19チャレンジ」を開催いたします。

COVID-19 に関する情報は、各自治体ごとにそれぞれのフォーマットで配信されています。
データ解析に使うには、これらのフォーマットを統一し、一つのデータセットにまとめる必要があります。
SIGNATE では、Phase 1 として、まずそのデータセットを構築することを目指しています。
データセット構築がある程度できてきたら、Phase 2 としてデータの解析をするようです。

COVID-19 データセットの構築

以下の Google スプレッドシートを人力で更新していきます。

bit.ly

いろいろな自治体のホームページ等から情報を拾って、このシートに入力していくのがタスクです。
なので、まさに誰でもできます。
でもこのデータセットを作るという作業が非常に重要です。
このデータセットの質によって、今後の解析がうまくいくかどうかも大きく影響されます。
なので、たくさんの人に参加してもらって、質を上げていければ良いのではないでしょうか。

またデータを更新したら、フォーラムに「○○を更新した」という報告をします。
以下は私の投稿例です。

f:id:edosha:20200323154343p:plain
SIGNATE COVID-19 報告

私は SIGNATE を使うのは初めてですが、とても意義のある活動だと思います。
ぜひたくさんの人に参加していただきたいです。


その他

ちなみに本家 Kaggle でも開催されていますが、ちょっと毛色が違います。

www.kaggle.com

こちらは、COVID-19 に関する様々な文献のデータセットが与えられています。
その中から、たとえば感染の経路は?とか、治療法は?とか、様々なテーマごとに、最適な文献を抽出するというタスクが与えられています。

他にも、世界の感染者数や死亡者数などを集めたデータセットも公開されています。

www.kaggle.com

こちらも非常に参考になるデータです。
カーネルには多くの方がデータを Visualize されていて、感染が爆発的に広がっていく様子が伝わってきます...