KEIBA-ROBOs 開発奮闘記(仮)
博士達が競馬予想ロボットを本気で開発しております
2008-11-18 火曜日(赤口)
_ [データマイニング] ヒストグラムから連続分布へ
リカ型1号では使っているデータがガウス分布に従っているとして計算していますが、精度向上のためデータから分布を推定するロジックに変える計画です。そこで使われる確率密度分布推定について。
_ 推定する対象はヒストグラムなのですが、棒グラフであるヒストグラムは、その棒の幅の取り方によって大きく形が変わります。例えば次の図は同じデータを、幅を変えてヒストグラムにした場合の図です。
そこで、まずはヒストグラムについての理論的な話から始めます。
サンプル数 n のデータをある階級にわけます。k 番目の階級について、データの値は、小区間 Ck=[tk, tk+1) の値を取るとします。
この階級の度数をνkすると、
_ となります。このとき、確率の線密度は、
_ と書けます。ここで、h は階級の幅で、h = tk+1-tk です。また、
_ を満たします。データがある階級に入るか入らない確率が一定のとき、階級を設定してデータを配置する試行はベルヌーイ試行ですので、度数は2項分布 B(n,pk) に従います。ここで、度数νk が実現する確率をpk とすると、未知の正確な確率線密度関数g(x) を用いて、
_ と表せます。また、度数 νk が2項分布に従う事から、期待値と、分散は以下のようになります。
_ よって線密度関数に関する期待値と分散は、
_ となります。
以上で、ヒストグラムに関する基礎的な関係が定式化できたので次回に最適な階級幅と密度の推定の説明をします。
[ツッコミを入れる]
(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.





