統計 相関係数についてのお話 [ネコ騙し数学]
統計 相関係数についてのお話
例えば、下の表に示すXとYのデータがあるとする。
このデータをもとに下の表を作り、平均、(共)分散、標準偏差を求める。
なお、上の表でE(x)、E(y)は、xとyの平均(期待値)であり、
である。
したがって、相関係数は
あるいは、共分散とx、yの標準偏差を用いて
である。
回帰直線の傾きaは
y切片bは
したがって、回帰直線の方程式は
である。
したがって、このxとyの間には正の相関がある。
もっともらしく聞こえることだろう。
しかし、この(x,y)の値はコンピュータ上で乱数を発生させたもので、このxとyには何の関係(無相関)もない。この例のように、xとyは0〜10の値をとるまったくランダムな変数にもかかわらず、データの数が少ないと、相関係数を計算すると相関があるかのような結果が出ることがある。
なお、相関係数によって、相関の強さは、たとえば、次のように分類される。
これはおおよその目安であり、本によって分類の仕方が異なるので、あくまで一例である。
次に、データの数を10組から200組に増やすと(上の例は、最初の10組を抜き出したもの)、散布図は右図のようになる。
この結果を見ると、xとyの間に相関がない、無相関であることがわかると思う。
母集団の相関係数ρ=0のときでも、(標本の)相関係数rを計算をすると、r=0.5程度の値が出ることがあるので、相関係数rを計算しただけで相関の有無を判断することは危険という話でした。
タグ:統計