高校教育までの統計の基礎知識
こんにちは!
今日はデータサイエンス入門でも出てきた、統計の基礎知識として高校教育までで扱うものを紹介します。
実は、今はセンター試験でも「データの分析」という範囲で統計の基礎知識は出題されています。
名前くらいは聞いたことがあるものが多いのではないでしょうか。
もちろん各々はデータの様々な特徴を表すものになっています。
それぞれ見てみましょう!
「平均」
言わずもがなですね。説明しろといわれると難しいですが、そのデータのだいたいの真ん中というイメージでしょうか。
ただ、データがバラバラの時は、中央値というようなど真ん中の値を採用した方がいい可能性もあります。
「分散、標準偏差」
実はこの二つはどちらもデータの散らばり具合を表す値です。分散の平方根が標準偏差なので厳密には意味が違いますが、意味するものはどちらもデータの散らばり具合です。標準偏差の方が一般的だと思うので、標準偏差はデータの散らばり具合を示していると思っておけばいいのではないでしょうか。
データが平均近くに集まっているほどこれらの値は小さくなり、ばらついているほど値が大きくなります。
しかし、二つのデータセットの散らばり具合を値そのもので比較することはできません。
身長(cm)と体重(kg)の標準偏差は、全体の値の範囲が身長の方が広いので、身長の方が基本的に値は大きくなります。
もし強引に比較するとしたら、全体の値の範囲で規格化(範囲の大きさを比例させてそろえる)する必要があります。
値の大きさだけで比較していて、実は元のデータ自体の範囲が全く違うといったことがないか気をつけましょう!
「相関係数」
これは二つのデータの間に相関がどれくらいあるかを表す指標です。
二つのデータが比例関係(片方が大きくなればもう片方も大きくなる)があれば、値は大きくなり、逆に反比例関係(片方が小さくなればもう片方も小さくなる)があれば、値は小さくなります。全く関係なければ、0に近い値になります。
データサイエンス入門でも紹介しましたが、その二つの間に因果関係のような意味があるかどうかは実はわかりません。
二つのデータを取り出したとき、見た目だけ関係あるようなこともあり得るのです。
最近話題になってる働き方改革の裁量労働制と賃金の関係も、実は相関関係でしかなく因果関係ではないのではないかと思うこともあります笑
AIは相関関係を見つけ出すことは得意なので、注意してみないといけないところになると思います。
簡単に統計の基礎知識となるような用語の紹介をしてみました!
世の中に出ている統計を見るときに簡単な意味を知っておくだけでも、その情報があっているのかを考えることができると思います!
騙されないためにも大事ですね笑