KEIBA-ROBOs 開発奮闘記(仮)
博士達が競馬予想ロボットを本気で開発しております
2008-11-13 木曜日(先勝)
_ [データマイニング] 統計いろいろ:相関係数
データマイニングは、統計の手法を組み合わせてデータの持つ性質を理解します。データの性質を調べる基本は2つの量の間に関係性が有るか無いかです。関係の強さは相関係数と呼ばれる量で評価できます。x、yの量の間の相関係数は次のように
_ です。ここで、,
は、それぞれx、yの平均値です。相関係数についての解説は他に譲るとして、以下にまめ備忘録を列挙します。
● 相関係数の有意検定
(相関係数が0である)母集団から抽出した標本に関する相関係数をrとした時、
_ は、自由度N-2のt分布に従います。よって、母相関係数が0である、という仮説が棄却出来るかどうかによって検定できます。
● 回帰と相関:x,yの相関係数をRとすると、回帰式は、
_ とかけます。ここで、Sijは変数i,jの共分散。また決定係数=R2
● Pearson積率相関係数
相関係数の絶対値 解釈
0.0〜0.2 ほとんど相関関係がない
0.2〜0.4 やや相関関係がある
0.4〜0.7 かなり相関関係がある
0.7〜1.0 強い相関関係がある
● Spearman順位相関係数
Pearson相関係数に準ずる。
● Kendall順位相関係数
上位二つとは目安が異なる。
▪ 独立係数(質的×質的):Cramer's V
0.0〜0.1 ほとんど相関関係がない
0.1〜0.3 やや相関関係がある
0.3〜0.5 かなり相関関係がある
0.5〜1.0 強い相関関係がある
▪ 相関比(量的×質的)
0.0〜0.25 ほとんど相関関係がない
0.25〜0.5 やや相関関係がある
0.5〜0.8 かなり相関関係がある
0.8〜1.0 強い相関関係がある
以上、相関係数まめ備忘録でした。
(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.





