タキ型は単純決定木型の略で、1号は文字通り単純な決定木を用いて実装されています。現在は馬連複の買い目に対してのみ予測を行っています。将来的には単勝、複勝、馬連単、3連複と言ったところにも広げて行きたいと思っています。
1号作成の時点では、欠損値の取り扱いや剪定(プルーニング)に関する十分な知見がなかったため、過去データを最大限学習データとして利用することを第一に考え、単勝1番人気確定オッズ〜単勝8番人気確定オッズの8変数を説明変数として使用することにしました。これなら過去の大半のレースを学習データとして使えますからね。
剪定(プルーニング)をしていませんから完全に過学習の状態ですが、説明変数が少ないことや学習用データを最大限利用して隙間を少なくしているので、1号機としてはこれで良いと判断しました。少々恣意的ではありますが、交差検証を行うと特定区間では回収率が100%を超えることや性能が出ない区間でも90%近い性能が出ていることも、これを1号にした理由です。
| 予測手法 | 決定木(Decision Tree) |
| 出力(目的変数) | Win(当選)、Lose(ハズレ) |
| 入力(説明変数) | 単勝1番人気オッズ〜単勝8番人気オッズ(8変数;数値型) 結果の判定には15分前オッズを使用 |
| 分岐の数 | 多分岐が可能 |
| 説明変数の選択基準 | 2次の情報エントロピー |
| 欠損値の処理 | 欠損値がある場合は学習データから除く |
| 剪定基準 | N/A(プルーニングしない) |
| 学習データ | 先週までのレース結果(各レースの確定オッズを使用) |
| 使用ツール | R, dtree(クリスチャン・ボーゲルト) |
2号機以降は説明変数の最適化(欠損値の適正処理や、説明変数の選択基準の最適化を含む)、剪定(プルーニング)による過学習への対処等をすると同時に決定木以外の予測手法にもチャレンジして みたいと思っています。その際は、単純決定木ではなくなってしまいますので、単純買い目判定器型(目的変数がWin/Loseの2値しかないと言う意味)でタキ型と言うことにしたいと思っています。
どこかにも書きましたが、我々が目指すのは曖昧さなく買い目が限定されるプログラムですので、単純買い目判定器型としてのタキ型は予測アルゴリズムが変わろうとも、最後まで残って行くと思います。ただ、それだけでは面白くない、と言う声も聞きますので、皆様方の予想を組み込んだり、逆に皆様方の予想に組み込める形のヒント提供型のROBOも考案して行きたいと思っています。また、購入時に確定オッズは得られませんから、15分前オッズによる学習や、オッズの時間変化とWin/Loseの関係調査等をして行きたいと思っています。
ただいま期間限定無料公開中!!→ タキ型1号
