トップ «前の日記(2008-07-31) 最新 次の日記(2008-08-25)» 編集

 KEIBA-ROBOs 開発奮闘記(仮)

博士達が競馬予想ロボットを本気で開発しております


2008-08-04 月曜日(仏滅)

_ [データマイニング] 決定木 その一

タキ型1号の完成から早くも1ヶ月余りが経ちました。遅まきながらタキ型1号で使われている分析手法である、「決定木」について解説します。

まずは論より証拠で、解説の前に決定木を使うと何が出来るかを紹介します。

ある製薬会社で薬Aと薬Bの効き方を調べるため表1のようなデータを集めたとします。

No.   性別    年齢    血圧 効いた薬  
1     男      20     中      A 
2     女      73     中      B 
3     女      37     高      A 
4     男      33     低      B 
5     女      48     高      A 
6     男      29     中      A 
7     女      52     中      B 
8     男      42     低      B 
9     男      61     中      B 
10    女      30     中      A 
11    女      26     低      B
12    男      54     高      A 

_ このデータを使って、効果のあった薬の種類が同じ患者で纏まるように、患者の属性である性別、年齢、血圧を使った患者の分類を決定木を用いて行ってみます。決定木を用いた解析結果は名前が示す通り下のように図示する事が出来ます。

この図から、AとBの薬の効き方は患者の血圧が最も影響が大きく、血圧が高い場合はAの薬、血圧が低い場合はBの薬が効く事を示しています。血圧が中の場合では、患者の年齢によって分かれ、40歳以下ならAの薬、40歳より高齢であればBの薬が効く事が判ります。

このように決定木を用いる事で12人の患者のデータを用いて、患者の血圧と年齢から効果の期待できる薬を予想するルールが生成されることが判ります。また患者の性別は、薬の種類を決める要因にはなっていないことも判明しました。

決定木の結果

_ タキ型1号では過去レースのデータに決定木を適用して当たりのルールを生成し、予想を行っています。

今回は、決定木で何が判るのかについて簡単にご紹介しました。次回からはデータ分類の手法として最も良く使われている決定木についての理論的な説明をしてみたいと思います。



トップ «前の日記(2008-07-31) 最新 次の日記(2008-08-25)» 編集

(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.