【書評】竹村彰通「データサイエンス入門」(岩波新書)
今回紹介する本は、竹村彰通「データサイエンス入門」(岩波新書)です。
最近当たり前のように聞くようになったビッグデータやAIですが、そのデータの価値を解釈するためにはデータサイエンスの知識が必要になります。
本書は、これからの時代にデータサイエンスが必要となる背景、データサイエンスの基礎知識を紹介してくれる本になります。
【概要】
・データ処理、データ分析、価値創造というデータサイエンスの三要素
・AI解析が得意なのはデータの相関を見つけること
・学ぶ必要があるデータサイエンス
○データサイエンスの三要素
冒頭でもご紹介したように、これからの時代はデータの価値を解釈するために、データサイエンスが必要になります。
データサイエンスで必要になる知識は、データ処理に情報学、データ分析に統計学、データから価値を引き出すためのそれぞれの応用分野の領域知識となります。この「データ処理、データ分析、価値創造」というのが、データサイエンスの三要素なのです。
そして、アメリカなどでは統計学の学部が存在し、生物統計学や統計学が人気の学部なのに対して、日本には統計学専門の学部が存在していなかったという大きな差があり、データサイエンスにおいて遅れを取ってしまっているというのが現状なのです。
○データの特徴
データにも様々な種類のデータがあります。
様々な区別の方法がありここでは紹介しきれないので、ぜひ本書を読んでみてください笑
データサイエンスで重要なことは、何が未知数であるか、どのように推定できるかを考えることです(数学の問題みたいですね笑)
今の時代で注意するべきデータの特徴としては、「相関関係と因果関係」です。
因果関係は想像しやすいと思いますが、原因と結果の関係です。
それに対して相関関係は、ただ二つの事象に関係あるだけで、そこに理由はないという関係です。
AIは今の段階では理由付けできるわけではないので、因果関係ではなくあくまで相関関係であるということが大事になります。
○データサイエンスという知識
これからはデータサイエンスを学ぶ必要があります。
身近なところで言えば、Excelというデータ処理および可視化の手段があります。
最初にご紹介したデータサイエンスの三要素を考えますと、Excelでデータ処理を行えるというのは、「今のところは」データサイエンスのスキルの一つであるといえます。
しかし、今後はこのデータ処理やデータ分析の領域にビッグデータや人口知能が登場します(しています)。
データサイエンスはこれからも必要になるとは言え、形を変えていくと思われますので、常に学び続ける必要があるのでしょう。
今回は「データサイエンス」に関しての書籍をご紹介しました。
これから必要になる知識ですが、実は今の高校の数学では基本的なデータ分析を行っています。平均値、中央値、分散etcといったことを扱うようになったことは、意味があると思います。
実はこの統計に関しても面白い知識がありますので、また紹介してみたいと思います!