ジップの法則

ジップの法則(Zipf's law)は、頻度順に並べた要素について、その出現頻度が順位におおよそ反比例するという経験則です。具体的には、最も頻度が高い要素の頻度を基準としたとき、k番目に頻度が高い要素の頻度がそのおよそ1/kになるという関係を示します。この法則は「ジフの法則」と呼ばれることもあり、こうした関係性が見られる構造を「ジフ構造」と呼ぶ研究者もいます。

この法則は、主にアメリカの言語学者ジョージ・キングズリー・ジップに帰せられています。彼は言語における単語の出現頻度を分析し、この法則を見出しました。しかし、ジップ自身も認めているように、言語データなどにおける同様の観察は、ジップ以前にもフェリックス・アウエルバッハやジャン=バティスト・エストゥープといった先駆者によって行われていました。

ジップの法則の背後にある包括的な理論的説明は、まだ完全に確立されているわけではありません。しかし、この法則が様々な現象において驚くほどよく当てはまることが経験的に確認されています。その適用範囲は非常に広く、自然現象から社会現象まで多岐にわたります。具体例としては、以下のようなものが挙げられます。

言語における単語の出現頻度:ある言語全体や特定のテキスト(例えば文学作品)における単語の使用頻度を調べると、ジップの法則に従う傾向が見られます。
インターネット上のデータウェブページへのアクセス頻度や、動画共有サイトでの動画の再生回数などにも、順位と頻度の間にジップの法則に類似したパターンが見られることがあります。
都市の規模:国の都市人口の多い順に並べたとき、その人口が順位に対してジップの法則に近似する関係を示すことがあり、「都市順位・規模法則」とも呼ばれます。
経済と富の分布:上位のごく一部の人々が富の大部分を所有する、といった現象の背景にある分布パターンに関連付けられることがあります。
文化や芸術:特定のジャンルの音楽における音符の使用頻度や、書籍・映画などのベストセラーリストにも、似たような分布が現れることがあります。
自然科学:生物の細胞における遺伝子の発現量、地震のエネルギー規模(グーテンベルグ・リヒター則が冪乗則の一種であり関連)、物が壊れたときの破片の大きさの分布など、自然界の現象にもジップの法則や関連する冪乗則が見出されています。

ジップの法則に従うような離散的な確率分布は「ジップ分布」と呼ばれています。このジップ分布は、統計学における「ゼータ分布」の特別なケースと見なすことができます。

数学的にこの法則を表現する最も一般的な形は、要素の総数をN、順位をkとしたときの頻度をf(k)として、
`f(k; s, N) = (1 / k^s) / Σ(1 / n^s)` (n=1 から N までの総和)
と表されます。ここで、kは順位、sは分布の傾きを調整するパラメータです。本来のジップの法則は、このパラメータsが1である場合を指します。s=1の場合、要素の総数Nを無限大とすると、分母の総和は無限に発散してしまいます(これは調和級数として知られています)。そのため、s=1の厳密なジップの法則が成り立つと考える際には、要素の総数は有限であると見なすのが一般的です。
一方、sが1よりわずかでも大きい実数(s > 1)であれば、たとえ要素の総数Nが無限大であっても分母の総和は収束し、リーマン・ゼータ関数の値ζ(s)と等しくなります。これにより、理論的には無限個の要素を持つ場合にも対応できる分布として扱うことが可能になります。

ジップの法則は、より広い概念である「冪乗則(Power law)」の一種です。また、ジップ分布は連続的な確率分布である「パレート分布」と密接な関連があり、適切な変数変換によって互いに同じ形を示すことが知られています。そのため、ジップ分布はパレート分布の離散版とも見なされます。経済学で有名な「パレートの法則」(例えば「全体の富の80%を人口の20%が所有する」というような経験則)は、パレート分布の特別な場合に相当し、「80-20の法則」としても知られています。ジップの法則は、これらのパレート分布やパレートの法則とも関連が深く、多様なデータや現象に見られる不均一性や、少数の要素が全体に大きな影響を与えるといった構造を理解するための重要な概念として、様々な分野で研究されています。

関連する概念としては、パレートの法則や80-20の法則などが挙げられます。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。