KEIBA-ROBOs 開発奮闘記(仮)
博士達が競馬予想ロボットを本気で開発しております
2008-11-29 土曜日(赤口)
_ [データマイニング] ヒストグラムから連続分布へ〜推定:補足〜
ヒストグラムから分布関数(確率密度関数)を推定する方法を3回に渡って説明しましたが、言葉足らずの部分もありましたので頭の整理もかねて補足しておきます。
今回のテーマでやりたい事は、ある事象の起こる確率密度又は確率が知りたい訳です。ところがデータは事象が起こったか起こらなかったかを教えてくれるだけなので、背後にある真の確率密度又は確率(これまでの説明だと g(x) )が判らない場合、多くのデータサンプルを集めて確率を計算することになります。
あるデータ点の値を取る事象の起こる確率は、データサンプルを階級に分けた時の度数から求めることができるので、ヒストグラムの頂点を繋いで行けば確率の関数の各点での値が判るという訳です。
そこで任意のデータの値に対する確率が知りたい時は、ヒストグラムの頂点を結ぶ曲線の式を求めておけば良いことになります。従って点の集まりが与えられた時にその点を結ぶ曲線の推定する事が、連続分布を求める1つ目の主要な要素になります。点の集まりに対する関数の推定は、スプライン補間法や、フーリエ分解、ウェーブレットを利用した方法など多くの方法が提案されています。説明したカーネル関数の線形和を用いた補間法はフーリエ分解やウェーブレットを利用した補間法の一種だと考えることができます。
分布関数の推定では、補間すべき点の集まりがヒストグラムの頂点となる事は述べましたが、分布関数推定についての説明の第1回目で述べたように、頂点の値は階級の幅に依存します。従って確率の関数の推定を正しく行うためには、正しい補間点が必要で、言換えるとヒストグラムの頂点の値が、真の関数値と出来るだけ近い値を取るように、階級幅を決める事が必要となります。これが、連続分布を求める2つ目の主要な要素です。
カーネル密度推定法では、上記の2つの要素を同時に解こうとしているのですが、その一方で背後にある真の確率が判っている時に、分布関数の特徴をもっともよく表すヒストグラムを描く際に使われる、最適な階級幅を決める手法(1回目と2回目で説明した手法です)ともよく似ているので混同し易く、注意が必要です。前回までの説明にはこのような説明も無く、判り難いので補足しておきます。
(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.





