トップ «前の日記(2008-11-26) 最新 次の日記(2008-11-29)» 編集

 KEIBA-ROBOs 開発奮闘記(仮)

博士達が競馬予想ロボットを本気で開発しております


2008-11-27 木曜日(先負)

_ [データマイニング] ヒストグラムから連続分布へ〜推定〜

前回行った定式化を用いて密度関数を推定します。前回の終わりにMISE(h)を直接推定する事が困難なため、近似を行った推定がいくつか提案されていると書きましたが、逆に言うと最も有効な確立した方法が無い状況でもあります。

話を始める前に、前回導入したカーネル関数に仮定されている性質を書くと次のようになります。


_ このカーネル関数を k 次のカーネルと呼び、k = 2 がよく用いられます。このカーネルの性質を用いると一般的に k 次のカーネルに対して、漸近積分2乗平均(AMISE(h))が次のように表せます。


_ これにより、最適な密度関数は、近似関数 AMISE(h) を最小にする hAMISE を数値的に求めることで推定されます。なお、g(k) は、真の確率密度関数 g(x)k 階微分であり、本来、真の関数形が分からないと計算できないのですが、数値計算の際は適当な関数で代替(近似)することによって hAMISE を求めて行きます。例えば、^f(x;h)h に適当な数値を入れた関数を g(x) の代りに上記式に代入して暫定的に求めた ^hAMISE を再度 ^f(x;h) に代入して g(x) の代替とする等が考えられます。

最初に述べたように、他に比べて秀でた近似法が確立されていないため、近似法と数値的な関数の評価法によって種々の方法が提案されています。



トップ «前の日記(2008-11-26) 最新 次の日記(2008-11-29)» 編集

(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.