トップ «前の日記(2008-10-31) 最新 次の日記(2008-11-13)» 編集

 KEIBA-ROBOs 開発奮闘記(仮)

博士達が競馬予想ロボットを本気で開発しております


2008-11-11 火曜日(大安)

_ [データマイニング] 決定木 その四

前回から少し時間が空いてしまったので自分の復習もかねて、決定木その一で使った例題を基に情報量を計算してみます。

データを再掲すると。

No.  性別(S)  年齢(O) 血圧(P) 効いた薬(D)
1     男      20     中      A 
2     女      73     中      B 
3     女      37     高      A 
4     男      33     低      B 
5     女      48     高      A 
6     男      29     中      A 
7     女      52     中      B 
8     男      42     低      B 
9     男      61     中      B 
10    女      30     中      A 
11    女      26     低      B
12    男      54     高      A 

_ でした。前回の説明に沿って進めると、分類属性Cは効いた薬(D)で、その属性値CiはA, Bの2種類です。また、

 N  : データのサンプル数 = 12
 nA : CAを取るデータのサンプル数 = 6
 nB : CBを取るデータのサンプル数 = 6

_ となります。血圧(P)[低、中、高]を分類に使用する属性として選択した場合各エントロピーは、

 

_ となります。なお上記の計算では血圧(P)の属性値、低、中、高の順に計算しています。よってこの時の情報量利得、情報量利得比は、

 

_ となります。一方分類に性別(S)[男、女]を使用すると、

 

_ で、Gainの値は負となり性別が分類に使用されない事が判ります。

ようやく復習できてきたので次回から他のいろいろな属性選択指標の話を続けます。



トップ «前の日記(2008-10-31) 最新 次の日記(2008-11-13)» 編集

(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.