ベイズ推定量の性質と証明
ベイズ推定量は、事後分布の平均と一致するという重要な性質があります。
ここから、連続型確率変数の場合においてこの性質を証明します。
損失関数、危険関数(リスク関数)、平均リスクを以下のようにおきます。
・損失関数:L(θ,T)=(T−θ)2
・危険関数:R(θ,T)=E[L(θ,T)]
・平均リスク:r(π,t)=E[R(θ,T)] (ただし、π(θ)は事前分布)
平均リスクを展開します。
r(π,t)=∫ΘR(θ,t)π(θ)dθ
=∫Θ∫X(t−θ)2f(x∣θ)dxπ(θ)dθ
=∫X∫Θ(t−θ)2f(x∣θ)π(θ)dθdx
ここで、A=∫Θ(t−θ)2f(x∣θ)π(θ)dθとおくと、Aを最小にするようなT=t(x1,x2,...,xn)がベイズ推定量になります。
Aは、
A=t2∫Θf(x∣θ)π(θ)dθ−2t∫Θθf(x∣θ)π(θ)dθ+∫Θθ2f(x∣θ)π(θ)dθ
平方完成して、
=∫Θf(x∣θ)π(θ)dθ[t−∫Θf(x∣θ)π(θ)dθ∫Θθf(x∣θ)π(θ)dθ]2−∫Θf(x∣θ)π(θ)dθ[∫Θθf(x∣θ)π(θ)dθ]2+∫Θθ2f(x∣θ)π(θ)dθ
となります。
Aはt=∫Θf(x∣θ)π(θ)dθ∫Θθf(x∣θ)π(θ)dθのとき、最小値をとることがわかります。
これをTとおくと、Tが事前分布π(θ)に対するベイズ推定量となります。
T=∫Θf(x∣θ)π(θ)dθ∫Θθf(x∣θ)π(θ)dθ
ベイズの定理より、π(θ∣x)=∫Θf(x∣θ)π(θ)dθf(x∣θ)π(θ)であることを用いて、
=∫Θθπ(θ∣x)dθ
=E[θ∣x]
よって、事前分布π(θ)に対するベイズ推定量Tは事後分布π(θ∣x)の平均に一致することがわかります。
二項分布とベイズ推定量
ベルヌーイ試行をn回行ったとき、成功回数をx回とすると、xは二項分布に従います。このときのベイズ推定量を求めてみましょう。
二項分布の共役事前分布はベータ分布であるので、事前分布をベータ分布Beta(α,β)と設定します。
f(x∣θ)=nCxθx(1−θ)n−x
であり、
π(θ)=B(α,β)1θα−1(1−θ)β−1 0≤θ≤1
であるから、
T=∫Θf(x∣θ)π(θ)dθ∫Θθf(x∣θ)π(θ)dθ
=∫01nCxθx(1−θ)n−xB(α,β)1θα−1(1−θ)β−1dθ∫01θnCxθx(1−θ)n−xB(α,β)1θα−1(1−θ)β−1dθ
=∫01θx(1−θ)n−xθα−1(1−θ)β−1dθ∫01θ×θx(1−θ)n−xθα−1(1−θ)β−1dθ
=∫01θ(x+α)−1(1−θ)(n−x+β)−1dθ∫01θ(x+α+1)−1(1−θ)(n−x+β)−1dθ
=B(x+α,n−x+β)B(x+α+1,n−x+β)
ここでベータ関数の性質を用いる
B(α,β)=Γ(α+β)Γ(α)Γ(β)
を利用する。ただしΓはガンマ関数。
=Γ(n+α+β+1)Γ(x+α+1)Γ(n−x+β)×Γ(x+α)Γ(n−x+β)Γ(n+α+β)
=Γ(n+α+β+1)Γ(x+α+1)×Γ(x+α)Γ(n+α+β)
ここでガンマ関数の性質を用いる
Γ(α)=(α−1)Γ(α−1)
=(n+α+β)Γ(n+α+β)(x+α)Γ(x+α)×Γ(x+α)Γ(n+α+β)
=n+α+βx+α
が得られます。
よって、ベータ分布に従う事前分布π(θ)に対するθのベイズ推定量は
T=n+α+βx+α
となります。
これは二項分布の事後分布の平均に一致します。
ベルヌーイ分布(二項分布)の事後分布に関しては、「ベルヌーイ分布の事後分布の平均と分散」をご確認ください。
最尤推定量とベイズ推定量を比較
例題を通して、最尤推定量とベイズ推定量を比較してみましょう。
最尤推定量について知りたい方は、「最尤推定量とは?初めての人にも分かりやすく解説」をご確認ください。
コイントスを5回行い、表が出た回数をxとする。いま、表が出る確率をpとすると、xはBi(5,p)に従う。このとき、xが0〜5の場合で次を考察せよ。
(1) 最尤推定量
(2) pの事前分布がBeta(21,21)に従っているとしたときのベイズ推定量
(1)最尤推定量
最尤推定量p^は、nxとなるので、以下の表のようになります。
x | 0 | 1 | 2 | 3 | 4 | 5 |
p^ | 0 | 51 | 52 | 53 | 54 | 1 |
この両端を見てみると、荒い推定値のように思えます。
例えばx=5なら、表が出る確率は1であると推定しています。つまり、「このコインは裏が絶対に出ない」と言っており、この推定値には信頼性がありません。
(2)ベイズ推定量
ベイズ推定量Tはn+α+βx+αとなるので、n=5、α=21、β=21をそれぞれ代入すると、以下の表のようになります。
x | 0 | 1 | 2 | 3 | 4 | 5 |
T | 121 | 41 | 125 | 127 | 43 | 1211 |
事前に情報がある場合は両端の確率が0または1になることがありません。こちらの方が最尤推定量より信頼できます。
このように、確率が0と1を取らないとわかっているとき、つまり0<p<1のとき、最尤推定量ではなくベイズ推定量が使われます。