トップ «前の日記(2008-08-04) 最新 次の日記(2008-09-01)» 編集

 KEIBA-ROBOs 開発奮闘記(仮)

博士達が競馬予想ロボットを本気で開発しております


2008-08-25 月曜日(先勝)

_ [データマイニング] 決定木 その二

決定木その一で見たように、決定木は複数の要素を持つデータを、目的とするデータ属性が均一な値を取るように、他の属性値を使って分類するための分類ルールを探索する手法です。得られた分類ルールから、同じ属性を持つ新規のデータがどこに分類されるかの予測も可能になります。

決定木その一では、目的とするデータ属性は効果のあった薬の種類A、Bとなり、分類ルールは血圧、年齢によって決められる事が判りました。

このように与えられたデータに対して分類ルールを決める事を決定木の学習と呼びます。具体的な決定木の学習手順は以下のようになります。1)と2)は分析者が行い、それ以降は決定木のロジックによって行われます。

1)目的とするデータ属性を選択する。
2)決定木の学習に用いるデータを用意する。
3)最適な分類となるよう、分類に使用する属性と属性の値を決める。
4)3)で決められた属性値を用いてデータを分類する。
5)全ての分類されたデータに関して、目的とする属性に関して均一になれば分類終了。均一でない場合は3)に戻る。

_ 以上の決定木の学習手順はトップダウン式と呼ばれタキ型1号でも使用されています。

分類ロジックの概要はこのように簡単なのですが、決定木で得られる分類ルールの善し悪しは3)の手順である最適分類の選択と分類に使用する属性と、属性値の選択で決まります。このため最適な分類を得るための属性選択に使われる多くの指標が考案されています。

次回は3)の手順に使われる最適分類を得るための属性選択指標について説明をしたいと思います。



トップ «前の日記(2008-08-04) 最新 次の日記(2008-09-01)» 編集

(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.