正規分布(ガウス分布)とは
正規分布とは、統計学を理解する上で最も大切な確率分布の一つです。
正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。
正規分布の基本的な性質
正規分布には以下のような基本的な性質があります。
- 平均値と最頻値と中央値が一致する。
- 平均値を中心にして左右対称である。(直線x=μに関して対称)
- x軸が漸近線である。
- 分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。分散(標準偏差)が小さくなると、山は高くなり、より尖った形になる。
確率密度関数
一変量の確率変数Xが、平均μ、分散σ2の正規分布に従うとき、確率密度関数は次の式で表されます。
f(x)=2πσ21exp[−2σ2(x−μ)2]
この確率密度関数を全区間で、積分すると1になります。また正規分布が平均μ,分散σ2に従うことを省略してN(μ,σ2)に従うと表記することもあります。
このNは正規分布 Normal distribution の頭文字から来ています。
正規分布が持つ3つの性質
正規分布には、以下3つの性質があります。各性質の詳細の説明や証明は、「正規分布の3つの性質とその証明」をご確認ください。
性質1:確率変数aX+bが従う正規分布
確率変数Xが正規分布N(μ,σ2)に従うとき、aX+bは正規分布N(aμ+b,a2σ2)に従う。
性質2:標準化による標準正規分布
性質1を用いて、Z=σX−μと変換すると、Zは平均0、分散1の正規分布に従う。これを特別に標準正規分布という。
また、この変換を正規分布の標準化と呼ぶ。
性質3:正規分布の再現性
確率変数XとYが独立に正規分布N(μ1,σ12),N(μ2,σ22)にそれぞれ従うとき、X+Yも正規分布に従う。
また、その分布はN(μ1+μ2,σ12+σ22)となる。
標準正規分布
確率変数Xが正規分布N(μ,σ2)に従うとき、Xの線形変換Z=σX−μはN(0,1)に従います。
この平均0、分散1の分布を標準正規分布と言います。また、Zの確率密度関数は次のようになります。
f(z)=2π1e−2z2
全ての正規分布はこの変換によって、標準正規分布に変換することができます。この変換を、正規分布の標準化といいます。
また、標準正規分布に従う確率変数Zに対して、確率 P(u≦Z≦∞)をP(u)としたとき、様々なuに対する確率をまとめたものが、標準正規分布表といいます。
標本平均の分布と正規分布の関係
正規分布と標本平均には次のような関係があります。
母平均μ、母分散σ2の母集団から大きさnの標本を無作為に抽出するとき、標本平均Xˉは、nが大きい場合、N(μ,nσ2)に近似的に従う。
正規分布が統計学を理解する上で非常に大事である理由の一つがこの特徴によるものです。この特徴を中心極限定理と言います。
抽出元の母集団の分布がどのような分布に従っていても、nが大きければ、その標本平均の分布は正規分布に従うのです。二項分布でも、ポアソン分布でも、指数分布でも、あるいは未知の分布だとしても、その標本平均の分布は正規分布に従います。(n→∞ならば完全に従う)
さらに、もし母集団分布が正規分布であった場合、標本平均Xˉはnの大きさによらず、正規分布N(μ,nσ2)に従います。
中心極限定理
中心極限定理の定義は以下です。
平均μ、分散σ2をもつあらゆる分布からの無作為標本の標本平均Xの分布はnが十分大きいとき以下の式が成立する。
limn→∞P(Zn≤z)=Φ(z)=∫∞z2π1e−2x2dx
これは、「確率変数の数が多くなったとき、あらゆる同一の分布に従う確率変数の標本平均の分布が、元の分布に関係なく、正規分布に収束する」という定理です。この定理の存在よって、正規分布があらゆる場面で使える分布となっています。
正規分布と標準偏差の関係
正規分布の標準偏差σ(シグマ)は、その分布を把握する上でよく使われる指標です。
上図が正規分布のグラフと、標準偏差とその2倍、3倍σ,2σ,3σの範囲を示したものです。
図からみてわかる通り、平均や分散、標準偏差の値とは関係なく、全ての正規分布のグラフは以下の性質を示します。
- 平均値±1σの範囲中に、全体の約68パーセント(偏差値で言うと40〜60)
- 平均値±2σ(場合によっては1.96σ)の範囲中に、全体の約95パーセント(偏差値で言うと30〜70)
- 平均値±3σの中に、全体の約99.7パーセント(偏差値でいうと20~80)
正規分布の積率母関数
正規分布の積率母関数は以下のように導出されます。
mX(t)=E(etX)=∫−∞∞etxf(x)dx=eμt+2σ2t2
上式の積率母関数を使った正規分布の平均や分散の導出の詳細は、「積率母関数を用いた正規分布の期待値(平均)と分散の導出」をご確認ください。
確率密度関数から正規分布の期待値・分散の導出
確率密度関数から、正規分布の期待・分散を導出してみます。詳細は「確率密度関数を用いた正規分布の期待値(平均)と分散の導出」をご確認ください。
期待値(平均)の導出
E(X)=∫−∞∞xf(x)dx=∫−∞∞(x−μ+μ)f(x)dx=∫−∞∞(x−μ)2πσ21exp[−2σ2(x−μ)2]dx+μf(x)dx=μ
分散の導出
E(X2)V(X)=∫−∞∞x2f(x)dx=∫−∞∞{(x−μ)2+2μx−μ2}2πσ21e−2σ2(x−μ)2dx=∫−∞∞(x−μ)22πσ21e−2σ2(x−μ)2dx+μ2=σ2∫−∞∞2π1e−2y2dy+μ2=σ2+μ2=E(X2)−(E(X))2=σ2
指数型分布族の性質を利用した正規分布の期待値・分散の導出
正規分布は指数型分布族に属します。指数型分布族に属することの証明は「正規分布が指数型分布族に属することの証明」をご確認ください。
指数型分布族の性質を利用した正規分布の期待値と分散の導出は以下の通りです。
指数型分布族に関する説明は「指数型分布族とは?定義と性質をわかりやすく解説」、指数型分布族の性質を用いた期待値・分散の導出の詳細は「指数型分布族の性質を利用した期待値と分散の求め方」をそれぞれご確認ください。
期待値の導出
E(X)=E[a(X)]=−b′(μ)c′(μ)=−(σ2μ)σ21=μ
分散の導出
Var(X)=Var[a(X)]=[b′(θ)]3b′′(θ)c′(θ)−c′′(θ)b′(θ)=[σ21]30⋅(−σ21)−(−σ21)⋅(σ21)=σ2
正規分布の事後分布の平均・分散
正規分布に従う母集団からデータを取ってくるとき、共役事前分布は正規分布となります。
よって、事前分布を正規分布としたとき、事後分布は次のようなことが言えます。
母平均μ、母分散σ2に従う正規母集団から大きさnの標本を抽出し、標本平均xを得たとする。母平均μの事前分布として平均η、分散τ2の正規分布をとるとき、μの事後分布は
平均:nτ2+σ2nτ2x+σ2η=σ2n+τ21σ2nx+τ21η
分散:nτ2+σ2τ2σ2=nσ2+τ2nσ2τ2
の正規分布に従う
具体的な導出過程は、「正規分布の事後分布の平均と分散」をご確認ください。
正規分布と他の確率分布との関係
カイ二乗分布
確率変数Z1,Z2,...,Znが互いに独立であり、それぞれが標準正規分布N(0,1)に従うとき、
χ2=Z12+Z22+,...,+Zk2
のχ2に従う分布を、自由度k(足される標準正規分布の数)のカイ二乗分布といいます。
t分布
確率変数Zが標準正規分布N(0,1)、確率変数Wが自由度nのカイ二乗分布に従うとき、
t=nWZ
と表されるtが従う分布を、t分布といいます。
二項分布
二項分布B(n.p)はnが十分に大きいとき、平均np、分散np(1−p)の正規分布に近づきます。
また、np(1−p)X−npは近似的に標準正規分布に従います。これをド・モアブルー・ラプラスの定理といいます。
関連記事
正規分布の確率密度関数の成り立ち
正規分布の標準化
標準正規分布表の使い方
中心極限定理の例とメリットを分かりやすく解説
積率母関数を用いた正規分布の期待値(平均)と分散の導出
確率密度関数を用いた正規分布の期待値(平均)と分散の導出
正規分布の3つの性質とその証明
共役事前分布を分かりやすく解説
指数型分布族とは?定義と性質をわかりやすく解説
指数型分布族の性質を利用した期待値と分散の求め方
正規分布が指数型分布族に属することの証明
正規分布の事後分布の平均と分散