パレート分布
パレート分布(Pareto distribution)は、イタリアの著名な経済学者
ヴィルフレド・パレートによって、
所得の分布を数学的に表現するモデルとして提案された連続型の
確率分布です。特定の範囲の
実数を取る確率変数に対して定義され、その形状には顕著な特徴があります。この分布の離散的なバージョンとしては、ゼータ分布(ジップ分布とも呼ばれる)が知られています。
基本的な性質
パレート分布は、通常、二つの正の値を持つパラメータ `a`(形状パラメータ)と `b`(尺度パラメータ、または最小値)によって特徴づけられます。確率変数を `x` とすると、これは `x` が `b` 以上の
実数である場合に定義されます。その
確率密度関数は、パラメータ `a` および `b` を用いた特定のべき乗の形で表現されます。
この分布の重要な性質の一つに、
期待値(平均)や分散といった統計量が、形状パラメータ `a` の値に依存して存在するかどうかが決まる点があります。具体的には、
期待値は `a` が 1 より大きい場合に定義され、分散は `a` が 2 より大きい場合に定義されます。これは、パラメータ `a` の値が小さいほど、分布の「裾」が重く、極端に大きな値が出現しやすくなるという性質を反映しています。特に `a` が小さい場合、平均や分散が有限な値として定まらないこともあります。このような性質から、パレート分布は富の集中や都市の人口規模など、少数の要素が全体のかなりの部分を占めるような、いわゆる「ロングテール」現象や不均一な分布をモデル化するのにしばしば用いられます。
一般化パレート分布(GPD)
パレート分布の概念を拡張したものが、
一般化パレート分布(Generalized Pareto Distribution, GPD)です。GPDは、ある一定の閾値を超える確率変数(例えば、特定の高さを超える波の高さや、あるレベルを超える地震の震度など)の分布をモデル化する際に非常に有効なツールとなります。これは、洪水、異常な気温、金融市場の極端な変動など、様々な分野における極値統計の分析で中心的な役割を果たします。
GPDは、位置
母数 `μ`、尺度
母数 `σ`、そして形状
母数 `ξ` の三つのパラメータで定義されます。この形状
母数 `ξ` は
パレート指数とも呼ばれ、分布の裾の重さ、すなわち極端な値の発生しやすさを決定する上で非常に重要な役割を果たします。GPDの
累積分布関数や
確率密度関数も、これらのパラメータを含む特定の数式によって与えられます。
GPDの定義域はパラメータ `μ`, `σ`, `ξ` に依存し、特定の条件 `1 + ξ(x-μ)/σ ≥ 0` が満たされる範囲に制限されます。
GPDの分類
一般化パレート分布は、形状
母数 `ξ` の値によって、主要な三つのタイプに分類されます。この分類は、一般化極値分布(GEV)の分類と対応しています。
1.
ξ > 0: このケースは、元のパレート分布に類似した形状を持ちます。分布の裾は重く、極端な値が出現しやすい性質を持ちます。
2.
ξ = 0: このケースでは、極限として指数分布の形状を取ります。指数分布は、イベントが発生するまでの時間など、特定の事象までの間隔をモデル化するのに用いられる分布です。
3.
ξ < 0: このケースは、タイプ2 パレート分布、あるいはベータ分布の一種(区間が有限な分布)に対応します。分布には上限が存在し、最も極端な値にも限界がある場合をモデル化します。
このように、一般化パレート分布は、形状パラメータ `ξ` の値を変えることで、異なる裾の挙動を持つ様々な分布を表現できる柔軟なモデルであり、極端な事象の統計的な分析において広く利用されています。
パレート分布とその一般化は、自然現象、経済学、保険、信頼性工学など、多様な分野で観測される不均一性や極値現象を理解し、モデル化するための基礎的な概念となっています。