KEIBA-ROBOs 開発奮闘記(仮)
博士達が競馬予想ロボットを本気で開発しております
2008-12-01 月曜日(友引)
_ [感想戦] 11月はマチ型1号が良い感じです。
11月は、マチ型1号が通算でプラスとなりました!
マチ型の予想は、全般的に悪くない感じがするので、リカ型の修正が完了したら、この方面の精密化を進めて行きたいと思ってます。
逆にリカ型1号は絶不調ですが、こちらは予想の範囲内。リカ型2号に向けて準備も着々と進んでいますんで(11月のブログ参照)、こっちも上げて行きますよ。
方向性が定まらないのがタキ型。どう進化させたら良いのかなぁ。まあ、マチ型とリカ型を確定させて、それとは違うモノの見方で定式化することになるんだろうなぁ。使ってるツールは違いますが、現在のタキ型1号の仕様はリカ型とベースのところでつながってしまってるんで、もうちょっと違う視点が欲しいところ。なにか良いアイデアありませんかね?
2008-12-10 水曜日(大安)
_ [ライブ] リカ型2号鋭意製作中!
リカ型2号に向けて、確率密度を実データから推定してみようという事で、馬連の投票率データから確率密度を推定してみました。
が、実はそう簡単ではなく1レースの出走馬数だけ変数があるのですが、使っている分析ツール「R」では最大6変数の密度推定が限度です。じゃーまずは6頭分のデータ使って推定だ、でまた問題が。年間約3000程のレースがありますが、1年分のデータ数でも、メモリを大量に消費して推定が行えません。じゃー、レースも分割してから答えを得ようという事で、2007年の年末2000レースのデータを使って推定した、馬連1-2が勝った時の密度分布が次の図です。
_ 赤線が2000レースのデータを使った場合、黒○が2000レースを更に半分に分けたうちの、年末に近い方のデータを使った場合、青○がもう一方のデータを使った場合で、緑の線は2色の○の平均値を結んだ線です。左上から右へ単勝の1番人気から6番人気の順になっています。一番人気の密度分布を推定する時は、他5つの投票率には、使っているデータでの中央値を使っているので、6変数のデータ全体の頂上と、個別の変数の頂上の位置がおおよそ一致しています。とはいえ、確認が必要で、レースを分割した時の効果などを2つの投票率の組合せた時の密度を推定して調べています。ちなみに、2000レースでの密度推定の計算時間は約5時間(Core2Duo 2GHz, メモリ2GB)
2008-12-15 月曜日(仏滅)
_ [ライブ] リカ型2号鋭意製作中!
単勝の人気別投票率について、一つ一つ確率密度を推定した結果を比較すると、推定の基になるデータの違いは殆どありませんでした。今回のデータの分割は、レースを開催日で前半と後半に分けていますので、勝負けの確率が開催日に依存していない事になります。これは、本当でしょうか?
ということで、二つの人気順の投票率を組み合わせた時の確率密度の分布を見てみると、以下の図のようになります。
_ 全て単勝人気の1番、2番人気についての分布で、上段左がサンプル数2000の場合、下段の2つの図が、1000レースに等分割したそれぞれの分布図です。上段右側は下段の二つの分布の平均値を取った場合です。上段二つはほぼ同じ分布になるものの、下段の2つは明らかな違いが現れています。この差が生じる原因は理解しておきたいところですが、まずはリカ型の改良法として、これまでのガウス分布近似に対してデータから推定した確率密度が優れているかの確認を先に進めています。
2008-12-25 木曜日(友引)
_ [データマイニング] 決定木 その五
確率密度推定の説明が一通り終わったので、間が開いてしまいましたが説明が途中だった決定木の属性選択ロジックのテーマに戻りたいと思います。
前回までの説明では最も良く使われていている、情報理論を基にする属性選択手法を説明しました。情報理論を基にした属性選択指標は、説明した以外にいくつかの種類があるのですが、詳細抜きで存在する属性選択手法を紹介します。
まず手法としては大きく分けると以下のように分けられます。
1) 情報理論に基づく手法 2) 分布の距離に基づく手法
_ です。
1)は、これまで説明にも使ってきた情報量利得もその一種で、分割によって情報量を最大にし、エントロピーを細小にします。
2)は、分割された時のデータの分布で計った距離を最大にします。同一母集団から無作為に選んだ2つのサンプルが同じクラスに属する確率を表すGini係数等を使います。
1)と2)の代表的な指標について次回以降で説明して行きたいと思います。
(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.





