累積分布関数と生存関数【統計検定準1級】
前回に引き続き「日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック 日本統計学会 編」の学習内容をまとめていきます。
今回の内容はp.7に対応します。
累積分布関数
確率変数 の累積分布関数(あるいは単に分布関数)は以下のように定義されます。
定義の通り、累積分布関数は確率的に変動する確率変数 がある値 以下になる確率を表しています。
前回の記事の後半で紹介した確率関数(あるいは確率密度関数)を用いると、離散型と連続型それぞれに対して、累積分布関数は以下のように表されます。
また、累積分布関数が連続型の場合、その導関数は確率密度関数となることも重要です。
生存関数
ここでは、確率変数 が寿命を表すとします。そして、以下の図のような確率密度関数 が得られたとします。
直感的な説明として、確率密度関数は各値の相対的な起こりやすさを表しています。
そのため図は、80歳前後で寿命を迎える人が最も多く(右の峰)、その次に子ども(0~5歳くらい?)が多く(左の峰)、20~30代で寿命を迎える人は相対的に少ない(中央の谷)ことを意味しています。
この時、累積分布関数 は 歳までに亡くなる確率( 歳までに亡くなる人の割合)を表しています。
一方で、 は 歳で生存している確率( 歳で生存している人の割合)を表し、生存関数と呼ばれます。
また、生存関数を用いて以下のハザード関数が定義されます。
この関数は、 歳で生存している人( 歳までに寿命を迎えていない人)の内、 歳で寿命を迎える人の割合、つまりその後短時間で寿命を迎える人の割合を表しています。
生存関数やハザード関数は生存時間解析で使用されるようです。時間に余裕ができれば、学習してみようと思います。