超幾何分布とは(hypergeometric distribution)
具体例として、箱の中からボールを取り出す試行を考えます。
箱の中にN個のボールがあり、k個が赤いボール、N−k個が青いボールです。箱の中からn個のボールを取り出したとき、その中に含まれる赤いボールの個数をX個とします。
このとき、Xが従う確率分布が超幾何分布です。
超幾何分布の公式
超幾何分布の公式は以下となります。
確率密度関数 | p(x)=⎩⎨⎧(Nn)(kx)(N−kn−x)0(x=0,1,2,⋯,n)(else) |
期待値 | E(X)=nNk |
分散 | V(X)=N2(N−1)nk(N−k)(N−n) |
期待値の導出
超幾何分布は離散型確率分布なので、期待値の定義(離散型確率変数の場合)から
E(X)=x=0∑nxp(x)=x=0∑nx(Nn)(kx)(N−kn−x)
となります。
ここで、x=0の時、E(X)の値は0となることから、x=1からnまでの総和として考えてもよいものとなります。さらに
(Nn)(kx) = n!(N−n)!N!x!(k−x)!k!=nNk×(n−1)!{(N−1)−(n−1)}!(N−1)!(x−1)!{(k−1)−(x−1)}!(k−1)!
と表せることから
E(X)=nNkx=1∑n(N−1n−1)(k−1x−1)(N−kn−x)
となります。
ここで( N−1n−1)( k−1x−1)( N−kn−x)は、パラメータがN−1、k−1、n−1の超幾何分布の密度関数の形と一致しています。
上式ではこの確率密度関数について、とりうる値において全て足しあわせており、その値は1となります。(これは、ある事象における全ての確率を足すと1になることと同義です。)
したがって、期待値は以下の形で表されます。
E(X)=nNk
分散の導出
分散の性質より
V(X)=E(X2)−E(X)2=E(X(X−1))+E(X)−E(X)2
E(X(X−1))を求めます。こちらについても、上記の期待値の定義から次のように求めます。
E(X(X−1))=x=0∑nx(x−1)p(x)=x=0∑nx(x−1)(Nn)(kx)(N−kn−x) =nNkx=1∑nx(x−1)(N−1n−1)(k−1x−1)(N−kn−x) =n(n−1)N(N−1)k(k−1)x=2∑nx(x−2)(N−2n−2)(k−2x−2)(N−kn−x) =n(n−1)N(N−1)k(k−1)
2行目から3行目の式展開については先程と同じく、x=0の時、値は0をとりますので、x=1からnまでの総和として考えるものとしています。
3行目から4行目の変形についても同様の理由です。さらに4行目ではパラメータがN−2、k−2、n−2の超幾何分布の密度関数の総和をとっているので、その値は1となります。
よって、E(X(X−1))=n(n−1)N(N−1)k(k−1)となります。
したがって、上記の値をV(X)に代入すると
V(X)=E(X(X−1))+E(X)−E(X)2= n(n−1)N(N−1)k(k−1)+nNk−n2N2k2=N2(N−1)nk(N−k)(N−n)
となります。