asukaの勉強備忘録

学びをアウトプットするためのブログ

累積分布関数と生存関数【統計検定準1級】

前回に引き続き「日本統計学会公式認定 統計検定準1級対応  統計学実践ワークブック 日本統計学会 編」の学習内容をまとめていきます。
今回の内容はp.7に対応します。

 

積分布関数

確率変数 X積分布関数(あるいは単に分布関数)は以下のように定義されます。

F(x)=P(X\leq x)

定義の通り、累積分布関数は確率的に変動する確率変数 X がある値 x 以下になる確率を表しています。
前回の記事の後半で紹介した確率関数(あるいは確率密度関数)を用いると、離散型と連続型それぞれに対して、累積分布関数は以下のように表されます。

F(x)=\sum_{x'\leq x}p(x')

F(x)= \int_{-∞}^{x}f(x')dx'

また、累積分布関数が連続型の場合、その導関数確率密度関数となることも重要です。

生存関数

ここでは、確率変数 X が寿命を表すとします。そして、以下の図のような確率密度関数 f(x) が得られたとします。

f:id:axsxuxkxa:20210409113200p:plain

直感的な説明として、確率密度関数は各値の相対的な起こりやすさを表しています。
そのため図は、80歳前後で寿命を迎える人が最も多く(右の峰)、その次に子ども(0~5歳くらい?)が多く(左の峰)、20~30代で寿命を迎える人は相対的に少ない(中央の谷)ことを意味しています。
この時、累積分布関数 F(a)a 歳までに亡くなる確率(a 歳までに亡くなる人の割合)を表しています。
一方で、S(a)=1-F(a)a 歳で生存している確率(a 歳で生存している人の割合)を表し、生存関数と呼ばれます。
また、生存関数を用いて以下のハザード関数が定義されます。

 h(a)=\frac{f(a)}{1-F(a)}=\frac{f(a)}{S(a)}=\frac{-S'(a)}{S(a)}=(-\log S(a))'

この関数は、a 歳で生存している人(a 歳までに寿命を迎えていない人)の内、a 歳で寿命を迎える人の割合、つまりその後短時間で寿命を迎える人の割合を表しています。
生存関数やハザード関数は生存時間解析で使用されるようです。時間に余裕ができれば、学習してみようと思います。