適合度の検定をカイ二乗検定で実施する手順を例題でわかりやすく解説

2024.3.27

適合度検定とは(goodness of fit test)

適合度検定とは、帰無仮説における期待度数に対して実際の観測データの当てはまりの良さを検定するための手法です。

今回は適合度の検定をカイ二乗検定で行う方法をご紹介いたします。

次のような例題を考えます。

大人と子どもが同じ数だけいる、母集団からランダムに100人を選ぼうとしたところ、大人が60人、子供が40人選ばれた。
これはランダムに選んだ結果と言えるでしょうか？適合度のカイ二乗検定を用いて、有意水準 $α = 0.05$ で評価しましょう。

まず帰無仮説 $H_0$ と対立仮説 $H_1$ をそれぞれ以下のように定義します。

$H_0$ :100人はランダムに選ばれた。
$H_1$ :100人はランダムではなかった。

今回の問題は母集団の大人と子どもの人数が同じなので、ランダムに選ぶ場合、大人を選ぶ確率と子どもを選ぶ確率は同じになります。

よって、100人を選ぶ場合、期待度数は50人ずつです。それを表にまとめると以下のようになります。

	観測度数（人）	期待確率	期待度数（人）
大人	60	50%	50
子ども	40	50%	50

帰無仮説 $H_0$ の下で今回の結果を評価することにします。

適合度検定をカイ二乗検定によって行う場合、その式は、カテゴリナンバー $i$ 番目の観測度数を $n_{i}$ 期待度数を $E_{i}$ とすると、次のようになります。

$\chi^2 = \sum^{r}_{i=1}\frac{(n_{i}-E_{i})^2}{E_{i}}\ \ \ \ 〜\chi^2(r-1)$

ここで $r$ はカテゴリー数であり、自由度がカテゴリーの数より1小さいのは、度数の合計が一定（既知）なので、カテゴリー数より一つ少ない個数分のセル情報が得られれば、残りの一つは、度数の合計から計算可能であることによります。

上式を今回の例題に適用させると、自由度1のカイ二乗分布になり、カイ二乗値は4となります。

$\chi^2 = \frac{(60-50)^2+(40-50)^2}{50} = 4 \ \ \ \ 〜\chi^2(1)$

カイ二乗分布表により、p値は0.0455となるので、有意水準5%では、帰無仮説は棄却され、対立仮説が採択されます。

つまり、ランダムに選んだつもりだったが、ランダムに選べていなかったという結果になります。

適合度検定をカイ二乗検定で行う場合の流れは基本的に上記の例題で示した通りです。ここからは、話を一般化させて、その手順を示していきます。

観測度数と期待度数が下の表のようになっている場合を考えます。

このとき、カイ二乗の適合度検定は以下のような手順で行われます。

１.期待確率から期待度数を計算
２.カイ二乗値を計算。（これは、観測度数と期待度数の差の二乗を期待度数で割った値の和で計算される。）
３.カイ二乗分布表から、２で計算したカイ二乗値に基づくp値を求める。有意水準以下ならば帰無仮説を棄却。

上記の手順に解説を加えていきます。

各属性の期待度数 $E_i$ はその属性の期待確率 $P_i$ を用いて、次のように表されます。

$E_i = n_i × P_i$

カイ二乗値は以下の式で計算されます。

$\chi^2 = \sum^{r}_{i=1}\frac{(n_{i}-E_{i})^2}{E_{i}}\ \ \ \ 〜\chi^2(r-1)$

カイ二乗分布のパーセント点を示す表から、手順2で求めたカイ二乗値を見つけ出し、p値を求めます。

それがあらかじめ定められた、有意水準以下であれば、帰無仮説を棄却することになります。

カテゴリ: 仮説検定