NTMRの数学メモ

数学について調べたことを書きます。高校数学に毛が生えた内容。

統計的な推測(数B)の備忘録

 数Bといえばベクトルと数例ですが、一応「確率分布と統計的な推測」という単元もあります。高校では習わず独学で勉強しましたが、何しろ問題を解く機会がない(手元の問題集にも載っていないものが多い)ため、すぐ忘れてしまいます。そのため、備忘録として一部の内容をまとめました。(教科書読んだ方が速いかもしれませんが…)

 

 数学Bで習う確率分布には二項分布 B(n,p)正規分布 N(m, \sigma ^2)があります。それらの違いを簡単に下にまとめると、次のようになります。

f:id:Natsu1014_brog:20210912131606p:plain

 また、二項分布 B(n,p)は「ある試行 Tを行って事象 Aが起きる確率が pであるとき、試行 T n回行って事象 Aが起きた回数」を Xとしたとき、 Xが従う確率分布となります。

 両者には重要な関係があり、 nが十分大きいとき二項分布 B(n,p)正規分布 N(np, np(1-p))に近似できます。 np np(1-p)というのはそれぞれ二項分布 B(n,p)に従う確率変数の期待値と分散です(証明略)。

 

 さて、母集団から1つの個体を無作為に抽出し、その変量(個体がもつ特性を表す数量)の値を Xとすると、これは確率変数となります。そして、 Xが従う確率分布を母集団分布といい、期待値 m母平均標準偏差 \sigma標準偏差といいます。さらに、複数の個体を無作為に抽出し、それらの変量の平均を \overline{X}とすると、これも確率変数となり、期待値は母平均 mと一致し、標準偏差は母標準偏差標本の大きさ \underline{n}平方根で割ったもの \frac{\sigma}{\sqrt{n}}となります。そして、母集団分布が正規分布に従うならば標本平均も正規分布に従いますが、母集団分布が正規分布に従わないとしても標本の大きさが十分に大きければ近似的に正規分布 N(m, \frac{\sigma ^2}{n})に従います。

 

 一方、母集団におけるある特性 Aをもつ個体の割合 p母比率といい、抽出された標本における特性 Aをもつ個体の割合 R標本比率といいます。そして、標本比率 Rは確率変数となり、標本の大きさが十分に大きいとき近似的に正規分布 N(p,\frac{p(1-p)}{n})に従います。これは「母集団から n個の個体を無作為に抽出して、それらのうち特性 Aをもつものの個数」を Xと定義した時、 Xは二項分布 B(n,p)に従うことから分かります。

 標本平均と標本分布について特徴をまとめると下の表のようになります。

f:id:Natsu1014_brog:20210912131706p:plain

 いずれもある確率変数 X_k \, (k=1,2,3, \cdots ,n)が存在して \overline X(または R)=\frac{1}{n} (X_1+X_2+ \cdots +X_n)と定義されますが、 X_kが標本平均の場合は複数の値をとるのに対し、標本比率の場合は1か0の値しかとらないのが本質的な違いだと思います。この違いにより m pに、 \sigma p(1-p)に変化していると解釈できます。

 

 さて、正規分布に従う確率変数の確率は計算することが出来ません。そこで、期待値0、標準偏差1の正規分布である標準正規分布 N(0,1)に従う確率変数 Xに対して、 P(0 \leq X \leq a)の値が複数の aに対してまとめられた表が存在します。また、確率変数 Xがいかなる正規分布 N(m,\sigma^2)に従っているとしても、 Z=\frac{X-m}{\sigma}とおくと確率変数 Zは標準正規分布 N(0,1)に従います( Z Xの標準化変数といいます)。

 そして、その表によると P(0 \leq Z \leq a)=0.475となる aの値はおよそ1.96と分かります。つまり、95%の確率で -1.96 \leq Z \leq 1.96という不等式が成り立ちます。 Z=\frac{x-m}{\sigma}であったので、これを代入して整理すると95%の確率で X-1.96\sigma \leq m \leq X+1.96 \sigmaが成り立つと言えます。

 この不等式を標本平均 \overline{X}(近似的に正規分布 N(m, \frac{\sigma^2}{n})に従う)、標本比率 R(近似的に正規分布 N(p, \frac{p(1-p)}{n})に従う)について立てると、

 標本比率:  \overline{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq m \leq \overline{X}+1.96\frac{\sigma}{\sqrt{n}}

 標本平均:  R-1.96\sqrt{\frac{p(1-p)}{n}} \leq p \leq R+1.96\sqrt{\frac{p(1-p)}{n}}

という不等式が95%の確率で成り立つと言えます。

 

 これらの不等式は、それぞれ母平均、母比率を推定するのに役立ちます。たとえば、標本平均 \overline{X}について母標準偏差 \sigmaが分かっていれば、母平均 mは95%の確率で [ \overline{X}-1.96 \frac{\sigma}{\sqrt{n}}, \overline{X}+1.96\frac{\sigma}{\sqrt{n}} ] の範囲に含まれていることが分かります。このような範囲のことを信頼度95%の信頼区間といいます。しかし、母標準偏差 \sigmaが分かっていなければ標本の標準偏差 Sで代用することもできます。母比率を推定したいときも同様に、母比率 pは標本比率 Rで代用します(そうでないと、母比率の信頼度95%の信頼区間に母比率が含まれてしまい役に立ちません…)。したがって、標本比率 Rについて母比率の信頼度95%の信頼区間 [ R-1.96 \sqrt{\frac{R(1-R)}{n}} , R+1.96\sqrt{\frac{R(1-R)}{n}} ] となります。

 

 以上です。センター試験では選択問題に存在しているのを見たことがありますが、それ以上の難易度の問題って存在するんですかね。一応、「大学の統計学」という本を途中まで読んで興味を持っているので、コロナが落ち着いたころに統計検定など受けたいなと思ったり思わなかったり。ではでは。