asukaの勉強備忘録

学びをアウトプットするためのブログ

事象と確率【統計検定準1級】

今回は統計検定準1級について学習した内容をまとめていきます。

資料としては以下の「日本統計学会公式認定 統計検定準1級対応  統計学実践ワークブック 日本統計学会 編」を使用しています。

これは昨年の5月に出版された本で、準1級に対応したテキストがあまりなかったことを考慮すると、待望の1冊だと思います。
私自身も2019年の末に統計検定2級に合格した後、準1級の勉強を始めようと思った時に公式のテキストが無く、困っていた所の出版だったので即購入しました。
統計検定準1級の範囲を網羅しているという点では非常に良い本だと思いますが、要点を簡潔にまとめている印象を受けたので、必要に応じて他の書籍も活用しようと思います。

 

それでは早速内容に移っていきます。
今回はP.1~4の内容です。

一部、以下の「統計学基礎改訂版 日本統計学会公式認定統計検定2級対応 日本統計学会 編」の内容も引用しています。

 

事象と確率

まずは用語の定義から始めますが、「”事象”と”集合”を対応させて考えること」がここではポイントとなります。

  • 試行:1回ずつの個別の結果が偶然に左右される実験や観測
  • 根元事象(素事象):試行により起こりうる個々の結果
  • 事象:根源事象の集合
  • 全事象:すべての根元事象の集合 

少し分かりにくいので、具体例を交えてイメージを膨らませていきます。

 

「すべての目が等確率で出るサイコロを1回振る」ことを考えると、先ほど定義した用語は以下のように対応します。

  • 試行:サイコロを1回振ること
  • 根元事象:「1の目が出る」,「2の目が出る」, ...,「6の目が出る」
  • 事象:例えば「偶数の目が出る」「4以上の目が出る」など
  • 全事象:「1~6のいずれかの目が出る」

ここで、「x の目が出る」という根元事象を"x"という風に表現すると、事象は根元事象の集合で定義されるので、事象A(偶数の目が出る)は

A=\left\{2, 4, 6\right\}

と表現することができます。
同様に、事象B(4以上の目が出る)を

B=\left\{4, 5, 6\right\}

と表現することができます。
このように"事象"を根元事象の"集合"とすることで、集合論の表記で事象を表現でき、集合論の概念・用語に対応付けることができます。
AB の和集合は和事象、積集合は積事象と呼ばれ、それぞれ A\cap B, A\cup B と表します。
空集合 \varnothing は起きえない事象を表し、空事象と呼ばれます。
A の補集合は全事象の内、A に含まれていない根元事象からなる事象に対応し、余事象と呼ばれ、A^c と表されます。
そして、事象 A が起きる確率を P(A) と表します。

条件付き確率

事象  A が起きるという条件の下で事象 B が起きる条件付き確率は以下のように定義されます。

P(B|A)=\frac{P(A\cap B)}{P(A)}

P(A) が全事象に対する事象 A の比率であるのに対して、P(B|A) は事象 A に対する事象 A\cap B の比率であることを意味しています。

この条件付き確率の定義を利用すると、独立のイメージがつかみやすくなると思います。
一般的に、独立は以下のように定義されます。

事象 AB が独立である \Leftrightarrow P(A\cap B)=P(A)\times P(B) 

先程の条件付き確率の定義を利用すると

事象 AB が独立である \Leftrightarrow P(B|A)=P(B) 

となり、「条件付き確率が無条件の確率と等しい」すなわち、「事象 B が起きる確率は事象 A という条件に依らない」という風に独立の概念を捉えることができます。

ベイズの定理

ベイズの定理は以下のように定義されます。

P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}

 これを用いると、B という結果が得られた条件の下での A という原因の確率を求めることができます。
少し分かりづらいので、例を交えて説明していきます。
ここでは、事象 A を「検査対象者がウイルスに感染している」とし、事象 B を「検査結果が陽性」とします。
P(A)事前確率と呼ばれ、ここではウイルスに感染している人の割合となり、標本調査によって推定することができます。(同時に P(A^c) も推定される。)
P(B|A) はウイルスに感染している条件の下で陽性となる確率を表し、実験を通して推定することができます。(同様に P(B|A^c) も推定される。)
これらの推定値とベイズの定理を用いると、陽性という結果が得られた下で、検査対象者がウイルスに感染しているという原因の確率(事後確率)を計算することができます。

確率変数

 サイコロの出る目や明日の降水量のように確率的に変動する変数は確率変数と呼ばれます。
一般的に、確率変数は大文字で表され、取り得る値は小文字で表されます。
サイコロの例の場合、サイコロを1回振って出る目は X であり、x=1, 2, 3, 4, 5, 6 となります。
サイコロの例のように、離散的な値を取る確率変数を離散型確率変数と呼びます。
離散型確率変数 X が値 x を取る確率を p(x)=P(X=x) と表し、確率関数と呼びます。
一方で、降水量の例のように、連続的な値を取る確率変数は連続型確率変数と呼ばれます。連続型の場合は、確率関数の代わりに以下の確率密度関数が定義されます。

f(x)=\lim_{\epsilon\rightarrow0}\frac{P(x\lt X\leq x+\epsilon)}{\epsilon} 

期待値・分散

確率変数を評価する指標として、期待値・分散というものがあります。
期待値 E(X) は「確率変数がどんな値を取ることが期待されるか」を表し、分散 V(X) は「確率変数の散らばりの程度」を表す指標です。
離散型と連続型で定義が異なり、それぞれ以下のように定義されます。

離散型

E(X)=\sum_x xp(x)
V(X)=E(X^2)-(E(X))^2

連続型

E(X)=\int_{-∞}^{∞}xf(x)dx
V(X)=\int_{-∞}^{∞}(x-E(X))^2f(x)dx