トップ «前の日記(2008-11-11) 最新 次の日記(2008-11-18)» 編集

 KEIBA-ROBOs 開発奮闘記(仮)

博士達が競馬予想ロボットを本気で開発しております


2008-11-13 木曜日(先勝)

_ [データマイニング] 統計いろいろ:相関係数

データマイニングは、統計の手法を組み合わせてデータの持つ性質を理解します。データの性質を調べる基本は2つの量の間に関係性が有るか無いかです。関係の強さは相関係数と呼ばれる量で評価できます。xyの量の間の相関係数は次のように

 

_ です。ここで、, は、それぞれxyの平均値です。相関係数についての解説は他に譲るとして、以下にまめ備忘録を列挙します。

● 相関係数の有意検定

(相関係数が0である)母集団から抽出した標本に関する相関係数をrとした時、

 

_ は、自由度N-2のt分布に従います。よって、母相関係数が0である、という仮説が棄却出来るかどうかによって検定できます。

● 回帰と相関:x,yの相関係数をRとすると、回帰式は、

 

_ とかけます。ここで、Sijは変数i,jの共分散。また決定係数=R2

● Pearson積率相関係数

  相関係数の絶対値 解釈

  0.0〜0.2   ほとんど相関関係がない

  0.2〜0.4   やや相関関係がある

  0.4〜0.7   かなり相関関係がある

  0.7〜1.0  強い相関関係がある

● Spearman順位相関係数

   Pearson相関係数に準ずる。

● Kendall順位相関係数

   上位二つとは目安が異なる。

  ▪ 独立係数(質的×質的):Cramer's V

   0.0〜0.1   ほとんど相関関係がない

   0.1〜0.3   やや相関関係がある

   0.3〜0.5   かなり相関関係がある

   0.5〜1.0   強い相関関係がある

▪ 相関比(量的×質的)

   0.0〜0.25  ほとんど相関関係がない

   0.25〜0.5   やや相関関係がある

   0.5〜0.8  かなり相関関係がある

   0.8〜1.0   強い相関関係がある

以上、相関係数まめ備忘録でした。



トップ «前の日記(2008-11-11) 最新 次の日記(2008-11-18)» 編集

(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.