確率分布の概要
確率分布とは、
確率変数の取り得る値と、それに対する
確率を関連付けた関数です。この概念は、統計学における重要な基盤であり、様々な現象をモデル化する際に利用されます。
確率変数とは、ランダムな実験や観測の結果を数値として表現したもので、
確率分布はこれに対する
確率を示します。
例えば、
サイコロを2つ振った場合、その出た目の合計は
確率変数となります。この時、出た目の和に対する
確率を一覧化したものが
確率分布です。
確率分布はおおまかに「離散型」と「連続型」に分けられます。
離散型確率分布
離散型の場合、
確率変数は特定の値しか取り得ないため、
確率質量関数(PMF)を用いて
確率を定義します。例えば、
サイコロの出た目の
確率を示す関数は、各出目に対して1/6の
確率を持ちます。このように、
確率質量関数は特定の値に対する
確率を提供するものです。
連続型確率分布
一方、連続型
確率変数の場合は、取ることのできる値が連続的であるため、
確率密度関数(PDF)を用います。
確率密度関数は、ある区間における
確率を与えるもので、その
確率を求めるためには、対象の区間でのPDFを積分する必要があります。例えば、「次に電話が鳴るまでの時間」を考えた場合、その
確率は時間の連続性があるため、特定の時間に鳴る
確率は0ですが、時間の区間に対して
確率を求めることは可能です。
累積分布関数(CDF)
確率分布を表現するもう一つの重要な関数が、累積分布関数(CDF)です。これは、
確率変数が特定の値以下になる
確率を表します。CDFは常に右連続であり、離散型の場合はとる値の個数によっては有限の値を持ちます。
連続型の場合、CDFは常に連続していますが、その傾向によって分布の性質が変わるため、各種分布の理解には重要な役割を果たします。たとえば、連続型の
確率変数において
期待値や分散を計算するには、このCDFやPDFを利用します。
確率変数の関係性
確率分布を理解することは、
確率変数間の関係を考える上でも重要です。二つの
確率変数が同時に存在する場合、
同時分布と呼ばれ、それぞれの変数の関係性を示します。この場合、
周辺分布を求めることで、特定の変数の分布に焦点を当てることができます。特に、独立な
確率変数同士の和や差については、個々の分布から新たな分布を計算することが可能です。
代表的な確率分布
確率分布は多岐にわたり、例えば正規分布、二項分布、
ポアソン分布などがあります。これらの各分布は、特定の条件下でのデータの挙動を示し、平均や分散といった性質が事前に知られていることが多いため、様々な実際の問題に対応可能です。
まとめ
確率分布は、ランダムな現象を定量的に捉えるための強力なツールです。
確率変数とその分布を理解することで、実世界の不確実性をより良く評価し、適切な意思決定を行うことが可能となります。