ベイズ統計の区間推定を解説

更新日

頻度論とベイズ論の区間推定の違い

頻度論とベイズ論の区間推定について解説します。

頻度論における区間推定の考え方

頻度論における区間推定の考え方について説明します。

母分散既知の正規分布に従う標本からデータをn個取ってきたとき、母平均に関する区間推定は、有意水準をα\alphaとすると、

XˉZα2σ2nμXˉ+Zα2σ2n\bar{X}-Z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}\leq\mu\leq\bar{X}+Z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}

と表せられます。このような区間は信頼区間と呼ばれています。

頻度論はパラメータを定数、データを確率変数として考えるので、上記の式を書き直すと、

変数定数変数変数\leq定数\leq変数

となり、区間が変数となることがわかります。つまり、得られるデータによって区間が変動するのです。

よって、95%信頼区間は「データを得て100個の信頼区間を作ったとき、95個の信頼区間が真のパラメータを含む」と解釈されます。

頻度論における区間推定

ベイズ論における区間推定の考え方

ベイズ統計ではパラメータを確率変数、データを定数として考えるので、上記の式は、

定数変数定数定数\leq変数\leq定数

と書き換えられ、区間が定数となります。

つまりベイズ統計の区間推定では、真のパラメータがその区間に存在する確率そのものが得られます。このような区間は信用区間確信区間)と呼ばれています。

確率変数θ\thetaの分布は事後分布によって与えられているので、100(1α)100(1-\alpha)%信用区間は以下のように与えられます。

ベイズ論における区間推定

信頼区間と信用区間の違い

信頼区間と信用区間の違いを例題を通して解説します。

【例題】

日本人男性全体の平均身長μ\muを調べたい。日本人男性全員を調査することは不可能なので、無作為に標本抽出をした。このデータから日本人男性全体の身長を推測したい。

⑴得られた標本から作成された95%信頼区間が160μ180160\leq\mu\leq180であった。この解釈を述べよ。
⑵得られた標本から作成された95%信用区間が160μ180160\leq\mu\leq180であった。この解釈を述べよ。

⑴今回作成された160μ180160\leq\mu\leq180という区間内に真の平均身長μ\muを含む確率は95%である。「真の平均身長が165cm〜175cmである確率」などは存在せず、あくまでもこの区間内に真値を含むか否かでしか測れない。

⑵真の平均身長μ\muを確率変数とみなす。このとき、確率変数μ\mu160μ180160\leq\mu\leq180の値をとる確率が95%である。「真の平均身長が165cm〜175cmである確率」などが存在する。得られたデータから、真の平均身長をとる値を確率的に推測できる

信用区間(確信区間)の定義

信用区間の定義は以下のようになります。

θ\theta100(1α)%100(1-\alpha)\%区間とは、

P{CX=x}=1αP\{C|X=x\}=1-\alpha

を満たすような部分集合CΘC\subset\Thetaである。

ただし、θ\thetaは連続型の確率変数

信用区間の種類

ベイズ統計の信用区間は、等裾事後信用区間最高事後密度信用区間HPD区間)の2つが有名です。

以下、α=α1+α2\alpha=\alpha_1+\alpha_2θ(1)\theta^{(1)}θ(2)\theta^{(2)}をそれぞれ100α1%100\alpha_1\%点、100α2%100\alpha_2\%点として説明していきます。

等裾事後信用区間

α1=α2=α2\alpha_1=\alpha_2=\frac{\alpha}{2}と言うようにα1\alpha_1α2\alpha_2を選んだとき、得られる信用区間を等裾事後信用区間と言います。95%95\%等裾事後信用区間は以下のようになります。つまり、等裾事後信用区間は両裾を等しく切り捨てるような形になります。

等裾事後信用区間

等裾事後信用区間には「信用区間を考えたとき、最頻値を必ずしも含まない」という問題点があります。

指数分布を例に考えて見ましょう。指数分布における等裾事後信用区間は以下のようになります。

指数分布における等裾事後信用区間

最も取りうる確率が高い(信用度の高い)θ=0\theta=0の部分が信用区間に入っていません。これを信用区間に採用するのは議論の余地がありそうです。

そこで、この問題を打開した最高事後密度信用区間(HPD区間)というものが現れました。

最高事後密度信用区間(HPD区間)

最高事後密度信用区間(HPD区間)は以下のように定義されます。

C={θ;π(θX=x)k}C=\{\theta;\pi(\theta|X=x)\geq k\}

を満たすような集合CCを最高事後密度信用区間(HPD区間)という。ただし、kk

P(CX=x)=1αP(C|X=x)=1-\alpha

となるように選ばれる。

以下の画像のように、α1+α2=α\alpha_1+\alpha_2=\alphaになるようにkkの高さを調整するイメージです。

最高事後密度信用区間(HPD区間)の説明

 た、事後分布が単峰型でなくても扱うことができます。

最高事後密度信用区間(HPD区間)の画像②

カテゴリ: ベイズ統計

関連サービス

講座一覧ページ

記事一覧はこちら

無料で統計学を学ぶ