t検定とは
t検定は、母分散が未知の正規分布に従う場合に利用する検定手法です。
Z検定は、母分散が既知の正規分布に従う場合に利用する検定手法なので、t検定とZ検定の違いは母分散が未知であるか既知であるかという点になります。
現実では母分散が未知である場合が大多数なので、t検定のほうが有用な検定手法として利用されます。
母分散が未知の正規分布の性質
正規分布に従うと仮定したデータに対して仮説検定を行う場合、帰無仮説の下で標準化する必要があります。
標準化の計算過程に母分散が必要になりますが、母分散が未知の場合、代わりに標本分散による推定値「標本不偏分散」を使います。
標本不偏分散を使って標準化した場合、正規分布は標準正規分布ではなくt分布に従うことが知られています。
また、この操作によって得られた値をt値といい、t値とt分布表によって得られる値をp値(有意確率)といいます。
p値が有意水準より小さい場合、帰無仮説を棄却します。
t検定の種類
t検定は大きく分けて次の3種類に分けられます。
- 「正規分布に従う一つの母集団の母平均が、特定の値と等しいか」に関するt検定(1標本問題)
- 「正規分布に従う二つの母集団の母平均の差に有意差が認められるか」に関するt検定(2標本問題)
- 「回帰分析における回帰直線の回帰係数が0であるか」に関するt検定
以降で、それぞれについて解説します。
1標本問題のt検定
1標本問題のt検定とは、「正規分布に従う一つの母集団の母平均が、特定の値と等しいか」に関するt検定です。
サンプルサイズnの標本データ、x1,....,xnが独立に同じ正規分布N(μ,σ2)(ただしσ2は未知)に従うと仮定します。
また、仮説を次のようにおきます。
帰無仮説H0:μ=μ0
対立仮説H1:μ=μ0
母分散が未知であるとき、σ2の推定値として、不偏分散σ^2=(n−1)Σ(xi−xˉ)2を使います。
標本の平均値xˉを用いて、帰無仮説のもとで、
t=nσ^xˉ−μ0
とすると、tは自由度n−1のt分布に従います。また検定で得られた値をt値といい、、t値とt分布表でp値を求め、あらかじめ定めた有意水準以下であれば帰無仮説を棄却します。
t検定の標準化の形は、正規分布の形と比べると覚えやすいです。
z=nσxˉ−μ0~N(0,1)⟷t=nσ^xˉ−μ0~t(n−1)
2標本問題のt検定
2標本問題のt検定とは、「正規分布に従う二つの母集団の母平均の差に有意差が認められるか」に関するt検定です。
サンプルサイズn,mの2つの標本、x1,....,xmとy1,....,ynが正規分布N(μ1,σ12)とN(μ2,σ22)(ただしσ1,σ2は未知)に従うと仮定します。このときの、2標本の母平均の差、δに関する検定を行い、仮説を次のようにおきます。
帰無仮説H0:δ=μ0
対立仮説H1:δ=μ0
ここで、2つの標本の平均値xˉ~N(μ1,mσ12)とyˉ~N(μ2,nσ22)の差d=xˉ−yˉも正規分布N((μ1−μ2),σ2(m1+n1))に従うことを利用します。
2標本問題のt検定の場合、さらに3つのパターンに分けられれます。
母分散が等しいと仮定したt検定
2つに標本の母分散が等しいと仮定した上で行うt検定です。
母分散が等しいと仮定すると、σ12=σ22=σ2と表せます。その推定量をσ^2とすると、xとyの不偏分散を自由度の重みをとした加重平均を用いて、
σ^2=m+n−2Σ(xi−xˉ)2+Σ(yj−yˉ)2
と推定できます。
よって、帰無仮説のもとでd=xˉ−yˉを標準化すると次のようになります
t=m1+n1σ^xˉ−yˉ ~t(m+n−2)
これがt値であり、t分布表と合わせて求めたp値(有意確率)が有意水準以下の場合、二つの母集団の平均には有意)が認められると言えます。
母分散が違うと仮定したt検定(ウェルチの検定)
2つの標本の母分散が等しいと仮定できない場合に行うt検定で、ウェルチの検定と呼ばれます。
σ1=σ2なので、その推定値σ1^2,σ2^2を別々に考えます。
dを標準化したtは
t=mσ1^2+nσ2^2xˉ−yˉ
となり、これは近似的にt分布に従うことが分かっているので、t値、p値を求められます。
自由度fとすると、次のようになります。(ただし、fは整数とは限りません)
f=m−1g12+n−1g22(g1+g2)2
g1=mσ1^2 , g2=nσ2^2
対応のある2標本のt検定
検定の対象となる2つの標本において、標本の一つ一つが対になっている、もしくは何らかの関係が認められるときに行うt検定です。
2標本に対応がある場合とは、例えば以下のようなケースです。
同じ人に対して血圧を下げる薬を処方し、x1,....,xmが薬を処方する前の血圧、y1,....,ynが薬を服用し始めてから2週間後の血圧として検定する。
このように2つの標本の各データが1対1で対応したデータであるとき、普通に検定するよりも、対応を考慮に入れて対を作って検定をするのが好ましいとされます。
また、このような標本を、対標本(paired sample)と呼びます。
対を作ることの有効性は、個体の観測値、(x,y)が正の相関を持つとすると、その差d=x−yの分散は、σd2=σx2+σy2−2σxyとなり、(x,y)が独立の場合よりも分散が小さくなる点です。
帰無仮説H0:μx=μy
対立仮説H1:μx=μy
の検定を行うとすると、対応のある標本であるので、
di=xi−yi
となる{di,i=1,...,n}について考えます。
よって、問題はdの母平均μdについての帰無仮説H0:μd=0の1標本の検定と同じになります。
この帰無仮説のもとで、dを標準化すると、
t=nσ^ddˉ ~t(n−1)
となり、t値を求められます。
回帰分析の回帰係数に関するt検定
回帰分析を行うと、目的変数yを、説明変数x1,...,xpと回帰係数β0,...,βpと誤差項εを用いて以下の式で表せます。
y=β0+β1x1+β2x2+,...,+βpxp+ε
そして、yの期待値E(y)は以下の式で表せます。
E(y)=β0+β1x1+β2x2+,...,+βpxp
このとき、それぞれの説明変数が目的変数を予測(説明)する上で役に立っているか、否かということについて強い関心が持たれます。
つまり、βi=0であるかによって、その説明変数が目的変数を予測するのに有効であるかの判断をすることになります。
帰無仮説H0:βi=0(i=1,...,p)
の仮説検定を行い、帰無仮説が棄却されなかったβiを係数とするxiはyを予測する上で役に立たない、という判断をします。
このとき、回帰係数βが正規分布に従うと仮定すると、t検定が行われることになります。
関連記事
仮説検定とは?初心者にもわかりやすく解説
Z検定とは?正規分布の母平均の検定手順を解説
t分布とは
片側t分布表と見方