分位数に関する概要
分位数は、データの分布を特定の割合で分割するための
統計的指標です。これは特にデータの代表的な値を理解するために重要な役割を果たします。分位数という用語は、分位点や分位値とも称され、
英語での呼び名は「quantile」です。
分位数とは
分位数は
実数の範囲内の値であり、特定の
確率に基づいてデータを分割します。たとえば、qが0.25の場合、1/4分位数はデータの25%がその値以下であることを示します。このように、分位数はデータの位置を表す重要な道具となります。
特定の正の
整数mにおいて、m分位数はデータの分布をm等分するために使われます。具体的には、m-1個の分位数があり、これらはそれぞれ第i m分位数と呼ばれます。たとえば、m=4であれば、これに対応するのは四分位数(quartiles)であり、1/4分位数、2/4分位数(中央値)、3/4分位数で構成されます。
分位数の計算
n個のデータに対するq分位数は、データを昇順に整列させた後、以下の方法で算出されます。まず、定義されたqの値に基づいて、次の式が導かれます:
$$Q_q = x(1 - q + qn)$$
ここで、x(t)は
数列の線形内挿数関数へと拡張され、tが
自然数である場合は単にxtとなります。非
整数tの場合、これには床関数および天井関数が関連してきます。
確率分布における分位数
分位数は
確率分布の特性を理解するためにも重要です。1次元
確率分布f(x)についてq分位数は、次の条件を満たすように定義されます:
- - $$ ext{∫}_{- ext{∞}}^{Q_q} f(x) dx ext{ ≥ } q$$
- - $$ ext{∫}_{Q_q}^{ ext{∞}} f(x) dx ext{ ≥ } 1 - q$$
これにより、分位数が分布のどの部分に位置するのかを把握でき、分布の特性を深く理解する手段となります。
特別な数値
特に注目すべき分位数としては、中央値、四分位数、三分位数、五分位数、十分位数、そしてパーセンタイルがあり、これらはそれぞれデータの異なるばらつきや位置を表します。
- - 中央値(メディアン): 1/2分位数として定義され、データの中心を示します。
- - 四分位数: 特に分析で使われる指標で、データを四等分する際に用いられ、下側四分位数と上側四分位数が存在します。
五数要約
分位数を用いてデータの特徴を簡潔に表したものが五数要約です。これは最大値、最小値、中央値、上側・下側ヒンジを包含し、しばしば
箱ひげ図で視覚化されます。これによって、データ全体の分布状況を一目で把握することが可能です。
結論
分位数は
統計データにおいて非常に重要な指標であり、さまざまな分位数を理解し利用することで、データの意味を的確に捉えることができます。これにより、分析や意思決定をより効果的に行うことが可能となります。