統計的な推測(数B)の備忘録
数Bといえばベクトルと数例ですが、一応「確率分布と統計的な推測」という単元もあります。高校では習わず独学で勉強しましたが、何しろ問題を解く機会がない(手元の問題集にも載っていないものが多い)ため、すぐ忘れてしまいます。そのため、備忘録として一部の内容をまとめました。(教科書読んだ方が速いかもしれませんが…)
数学Bで習う確率分布には二項分布と正規分布があります。それらの違いを簡単に下にまとめると、次のようになります。
また、二項分布は「ある試行を行って事象が起きる確率がであるとき、試行を回行って事象が起きた回数」をとしたとき、が従う確率分布となります。
両者には重要な関係があり、が十分大きいとき二項分布は正規分布に近似できます。、というのはそれぞれ二項分布に従う確率変数の期待値と分散です(証明略)。
さて、母集団から1つの個体を無作為に抽出し、その変量(個体がもつ特性を表す数量)の値をとすると、これは確率変数となります。そして、が従う確率分布を母集団分布といい、期待値を母平均、標準偏差を母標準偏差といいます。さらに、複数の個体を無作為に抽出し、それらの変量の平均をとすると、これも確率変数となり、期待値は母平均と一致し、標準偏差は母標準偏差を標本の大きさの平方根で割ったものとなります。そして、母集団分布が正規分布に従うならば標本平均も正規分布に従いますが、母集団分布が正規分布に従わないとしても標本の大きさが十分に大きければ近似的に正規分布に従います。
一方、母集団におけるある特性をもつ個体の割合を母比率といい、抽出された標本における特性をもつ個体の割合を標本比率といいます。そして、標本比率は確率変数となり、標本の大きさが十分に大きいとき近似的に正規分布に従います。これは「母集団から個の個体を無作為に抽出して、それらのうち特性をもつものの個数」をと定義した時、は二項分布に従うことから分かります。
標本平均と標本分布について特徴をまとめると下の表のようになります。
いずれもある確率変数が存在してまたはと定義されますが、が標本平均の場合は複数の値をとるのに対し、標本比率の場合は1か0の値しかとらないのが本質的な違いだと思います。この違いによりはに、はに変化していると解釈できます。
さて、正規分布に従う確率変数の確率は計算することが出来ません。そこで、期待値0、標準偏差1の正規分布である標準正規分布に従う確率変数に対して、の値が複数のに対してまとめられた表が存在します。また、確率変数がいかなる正規分布に従っているとしても、とおくと確率変数は標準正規分布に従います(をの標準化変数といいます)。
そして、その表によるととなるの値はおよそ1.96と分かります。つまり、95%の確率でという不等式が成り立ちます。であったので、これを代入して整理すると95%の確率でが成り立つと言えます。
この不等式を標本平均(近似的に正規分布に従う)、標本比率(近似的に正規分布に従う)について立てると、
標本比率:
標本平均:
という不等式が95%の確率で成り立つと言えます。
これらの不等式は、それぞれ母平均、母比率を推定するのに役立ちます。たとえば、標本平均について母標準偏差が分かっていれば、母平均は95%の確率での範囲に含まれていることが分かります。このような範囲のことを信頼度95%の信頼区間といいます。しかし、母標準偏差が分かっていなければ標本の標準偏差で代用することもできます。母比率を推定したいときも同様に、母比率は標本比率で代用します(そうでないと、母比率の信頼度95%の信頼区間に母比率が含まれてしまい役に立ちません…)。したがって、標本比率について母比率の信頼度95%の信頼区間はとなります。
以上です。センター試験では選択問題に存在しているのを見たことがありますが、それ以上の難易度の問題って存在するんですかね。一応、「大学の統計学」という本を途中まで読んで興味を持っているので、コロナが落ち着いたころに統計検定など受けたいなと思ったり思わなかったり。ではでは。