累積分布関数(CDF)について
累積分布関数、略してCDF(Cumulative Distribution Function)は、
確率論において基本的な役割を果たす概念です。この関数は、
確率変数がある特定の値以下である
確率を示します。CDFは、連続型と離散型の
確率変数のいずれにも適用され、特に連続型の場合は、
確率密度関数を用いて定義されます。
定義と基本的な性質
実数値の
確率変数Xに対して、その累積分布関数F_X(x)は以下のように定義されます:
$$
F_X(x) = P(X \\leq x
$$
この式は、
標本空間内でXがx以下となる
確率を示し、これを下側
確率と呼びます。連続型の
確率変数においては、CDFは負の無限大からxまでの
確率密度関数を積分した結果として表されます。
$$
F_X(x) = \int_{-\infty}^{x} f_X(t) dt
$$
この式からもわかるように、累積分布関数は得られた
確率の累積値を示すため、常に単調増加となります。さらに、以下の限界条件も満たします:
- - \(\lim_{x \to -\infty} F_X(x) = 0\)
- - \(\lim_{x \to +\infty} F_X(x) = 1\)
この性質はCDFの重要な特徴の一つです。
離散型確率変数
離散型の場合の累積分布関数は、次のように表されます:
$$
F_X(x) = \sum_{x_i \leq x} P(X = x_i)
$$
この式は、x以下の全ての可能な値に対するその
確率の総和を示します。この定義によって、離散型
確率変数のCDFも算出可能です。
連続型確率変数の間の関係
連続型
確率変数において、区間(a, b]の
確率は次のように書けます:
$$
P(a < X \leq b) = F_X(b) - F_X(a)
$$
これにより、任意の区間における
確率を簡単に計算できるようになります。
相補累積分布関数
累積分布関数の派生概念として、相補累積分布関数(CCDF)があります。これは、ある値xを超える
確率を示します。定義は次の通りです:
$$
\bar{F}_X(x) = P(X > x) = 1 - F_X(x)
$$
CCDFは、特に上側
確率として利用され、CDFとともに
確率の理解を補完します。
分位関数
さらに、分位関数は累積分布関数が連続かつ単調に増加する場合の逆関数であり、特に
確率分布からサンプリングを行う際に役立ちます。定義は次のようになります:
$$
F^{-1}(p) \text{ , } p \in [0, 1]
$$
この分位関数は、特定の
確率pに対して、母集団内でその
確率を超える値を提供します。このように、CDF、CCDF、および分位関数は
確率論における重要なツールとなります。
まとめ
累積分布関数は、
確率変数が持つ性質を理解し、
確率計算を行う上で必要不可欠な要素です。CDFの理解を深めることで、データ分析や統計的推測における応用が広がります。