KEIBA-ROBOs 開発奮闘記(仮)
博士達が競馬予想ロボットを本気で開発しております
2008-11-26 水曜日(友引)
_ [データマイニング] ヒストグラムから連続分布へ〜推定の定式化〜
ヒストグラムから連続分布を推定するためには、推定するヒストグラムの最適な階級幅を決める事が必要な事が、前回の説明から判りました。今回は、最適な階級幅を決めるためにどう定式化して推定するかについて説明します。
ある任意の点 x0 において、推定される階級幅 h を持つ密度関数と未知の正確な密度の間の誤差は、
_ と表せます。ここで平均2乗誤差(MSE)を考えると、
_ となり、右辺第1項目のバイアス(度数に対する誤差)と分散の和となります。
バイアスは階級幅が大きい程大きな値を取り、逆に分散は、階級幅が小さくなる程大きくなります。
これは、g(x0) ; x0 ∈ Ck の漸近表現を用いた以下の近似による評価からも判ります。
_ 以上から、MSE を最も小さくするような階級幅 h を選ぶことができて、この時誤差が、最小になる事が判ります。
実際には上記の各点での2乗誤差を積分した、平均積分2乗誤差(MISE)、
_ が評価する関数としてよく用いられます。
MISE(h) を用いた最適な階級幅 h の推定は、次のように定式化できます。
_ ただ、この方法では、hMISE を求めるために真の関数 g(x) の関数形が必要となり、近似的に求めるにせよ、g(x) が従う関数の概要(例えば、外部要因から真の関数は正規分布に近い形が期待される等の情報が得られる場合は、g(x) に正規分布の関数形を入れて計算すれば良い)が必要になってしまいます。
そこで g(x) の関数形が全く分からない状況においても h の最適値を求めることができる方法について考えることにします。この場合は、まず ^f(x;h) が、ある関数(カーネル関数)の線形和で表せるとして、以下のように定義するところからスタートします。ここで、xi は、実際に観測した点(確率変数の観測点)を表します。また、カーネル関数 K(u) は、通常、ガウス関数のように対称な確率密度関数が使われます。
_ この関数を用いて再度 MISE(h) を求め、h の最適値を推定して行くことになります。
以上で最適な連続関数推定の定式化と推定への道筋の説明が出来ました。ところが、よく使われるガウス関数をカーネル関数として採用しても、計算すべき MISE(h) は、閉じた解析解で書く事が出来ず、積分が有るため計算も困難です。そこで、近似を行って MISE(h) を評価する方法がいくつか提案されています。
これについては明日続けて説明しますので、お楽しみに。
(C) 2008 KEIBA-ROBO制作委員会 All Rights Reserved.





