カイ二乗検定を残差分析で評価する方法

更新日

分割表を用いた独立性のカイ二乗検定は、2つの変数の間に関連があるかどうかを検定するものです。この検定で2つの変数に関連があると言えるとき(p値が有意水準以下になったとき)、具体的にどのような関係があったのか評価したい、というような場合に使うのが残差分析です。ここで残差とは、「観測値-期待値」であり、残差分析を行うことで期待度数と観測値のずれが特に大きかったセルを発見することが出来ます。

残渣分析とは

分割表を用いた独立性のカイ二乗検定で2つの変数の間に関連がある分かったとき、変数の間にある具体的な関係を評価するのが残差分析です。

残差は「観測値-期待値」で算出します。

残差分析を行うことで期待度数と観測値のずれが特に大きかったセルを発見することができます。

調整済み残差を用いたカイ二乗検定の残差分析

独立性のカイ二乗検定で2つの変数が独立でない(関連性がある)と言えたとき、調整済み残差dijd_{ij}を用いて残差分析を行う図式は以下のようになります。

残差分析の図

調整済み残差dijd_{ij}は標準正規分布に従うので、dij1.96|d_{ij}|≧1.96のとき、そのセルを特徴的な部分であると考えることができます。

残差分析の例題

具体的な例で考えてみましょう。

130人に対してアンケートを実施し、体脂肪率と自分に自信があるかの調査を行い、以下の分割表のようになりました。

有意水準5%で独立性のカイ二乗検定を行い、有意だった場合には、調整済み残差を求めて特徴的なセルを見つけましょう。

自信なし(人)

自信あり(人)

体脂肪率低

13

10

体脂肪率標準

41

17

体脂肪率高

42

7

ここで独立性のカイ二乗検定を行うとp値は0.02です。よって独立ではないという結論が得られたので調査済み残座を算出します。

dij=fijEijEij(1ri/ni)(1ci/ni)d_{ij} = \frac{f_{ij} - E_{ij}}{\sqrt{E_{ij}(1-r_i/n_i)(1-c_i/n_i)}}

残差分析を行うと、以下のようになります。

自信なし(人)

自信あり(人)

体脂肪率低

-2.084

2.084

体脂肪率標準

-0.735

0.735

体脂肪率高

2.395

-2.395

上記から、体脂肪率が低い人に自信がある人が多く、体脂肪率が高い人に自信がない人が多いことが読み取れます。

標準の体脂肪率の人は正の方向・負の方向ともに1.96以上になっていないので特に特徴はありません。

調整済み残差の導出

調整済み残差dijd_{ij}は期待度数EijE_{ij}、周辺度数rir_inin_iと観測値fijf_{ij}を用いて、次のように表されます。

dij=fijEijEij(1ri/ni)(1ci/ni)d_{ij} = \frac{f_{ij} - E_{ij}}{\sqrt{E_{ij}(1-r_i/n_i)(1-c_i/n_i)}}

ここから、上式の導出を説明します。

まず、独立性のカイ二乗検定を行って、独立ではないという結論が得られたとします。

ここで調整済み残差を求めたいのですが、調整済み残差を求める前の段階として標準化残差を求める必要があります。

残差とは「観測値-期待値」であり、それを標準偏差で割ったものが標準化残差です。

eij=nijEijEije_{ij} = \frac{n_{ij}-E_{ij}}{\sqrt{E_ij}}

標準化残差は、近似的に正規分布N(0,vij)N(0,v_{ij})に従うことが知られており。その分散は次の式で表されます。

vij=(1ni.N)(1n.jN)v_{ij} = (1-\frac{n_{i.}}{N})(1-\frac{n_{.j}}{N})

調整済み残差は、標準化残差とその分散を用いて標準化変換を行うことによって次の式で表されます。

dij=eijvijd_{ij} = \frac{e_{ij}}{\sqrt{v_{ij}}}

したがって調整済み残差の分布は、近似的に平均0,標準偏差1の標準正規分布に従います。

よって、有意水準α=0.05の検定の場合はdij|d_{ij}|が1.96以上であれば、特徴的な部分であるとみなすことができます。

関連記事

独立性のカイ二乗検定を例題を用いてわかりやすく解説

カテゴリ: 仮説検定

関連サービス

講座一覧ページ

記事一覧はこちら

無料で統計学を学ぶ