統計

正規分布

正規分布(normal distribution)の確率密度関数は下記の式で表される。

f(x) は確率密度関数なので、全区間で積分すると1になる。正規分布が 平均 μ, 標準偏差 σ に従うことを省略して、

と表記することもある。ちなみにExcelで “=NORM.DIST(x, μ, σ, FALSE)” とすれば、正規分布のグラフを描くことができる。

 平均 μ を変えると、正規分布はx方向にスライド。

 標準偏差 σ が大きいほど、分布は広がっていく。

特に、平均 : 0, 分散 : 1 であるときは、標準正規分布と呼ばれる。


■標準正規分布表

 標準正規分布において、0~xの区間(斜線部分の面積)が全体の何%にあたるのかを確認できる標準正規分布表というものがある。

 例えば、x = 1.13のとき、つまり 0~1.13の区間が全体の何%にあたるのかを求めたい場合。表の”1.1″行と”0.03″列の交差するセルの数値を参照すればよい。x = 1.13 の場合は0.3708なので、斜線部分の面積が全体の37.08%であることがわかる。

 どんな正規分布であっても、標準化することができるので、標準正規分布表の値を利用することができる。

■正規分布と σ 区間に含まれる確率

正規分布であれば(標準正規分布でなくても)
・μ-σ ~ μ+σ の区間に含まれる確率は68.27%
・μ-2σ ~ μ+2σ の区間に含まれる確率は95.45%
・μ-3σ ~ μ+3σ の区間に含まれる確率は99.73%
・μ-4σ ~ μ+4σ の区間に含まれる確率は99.994%
・μ-5σ ~ μ+5σ の区間に含まれる確率は99.99994%
・μ-6σ ~ μ+6σ の区間に含まれる確率は99.9999998%
となる。σ~3σ区間については、簡略表現でまとめて “68-95-99.7則” と呼ばれてたりする。

●誤差関数 erf
 正規分布に関連して、誤差関数 erf (error function)というものがある。erf の定義は下記の通り。※係数とexp( )の中身が、標準正規分布と異なるので注意。

 正規分布の μ-xσ ~ μ+xσ 区間の面積が全体の何%にあたるのかは

で求められる。erf で x/√2とするのは、下記の通り、標準正規分布で考えたときに、積分範囲を 0~x に合わせるため。

 ちなみに、Excelで “=ERF(3/SQRT(2))” とすれば、μ-3σ ~ μ+3σ の区間に入る確率である0.9973…(99.73%) が値として返ってくる。

 

●相補誤差関数 erfc
 逆に μ-xσ ~ μ+xσ の”区間外”に含まれる確率は

 で求められ、erfc は相補誤差関数(complementary error function)と呼ばれる。余誤差関数とも呼ばれたりする。

 例えば、Excelで “=ERFC(3/SQRT(2))” とすれば、μ-3σ ~ μ+3σ の区間外に含まれる確率である0.002699…(0.27%) が値として返ってくる。