ベンフォードの法則

ベンフォードの法則とは



ベンフォードの法則は、電気料金、株価、人口、物理定数など、様々な種類の数値データ集合において、先頭の桁の数字が現れる頻度が特定の確率分布に従うという経験則です。直感的には、どの数字も同じくらい現れるように思われますが、実際にはこの法則によれば、先頭の桁が1である確率は他のどの数字よりも高く、およそ3分の1に達します。一方、先頭の桁が大きくなるにつれて出現確率は低下し、例えば9が先頭になる確率は20分の1以下と非常に低くなります。

この法則は、1938年に物理学者のフランク・ベンフォードによって提唱され、その名が冠されました。しかし、それよりも前の1881年には、天文学者のサイモン・ニューカムが対数表の最初のページがより多く擦り切れていることに気づき、この法則に似た現象を示唆していました。

なぜこのような法則が現れるのか



ベンフォードの法則が成立する背景には、いくつかの要因が考えられています。

1. 対数スケールでの分布



最も根本的な理由として、多くの自然界のデータは対数スケール上で均等に分布する傾向があることが挙げられます。例えば、ある数値が100から1000の範囲に分布している確率と、10000から100000の範囲に分布している確率が同程度であるような場合です。対数スケールで均等に分布しているとき、数字の最初の桁が1である区間(例:100〜199、1000〜1999)は、最初の桁が9である区間(例:900〜999、9000〜9999)よりも対数的な幅が広くなります。この幅の差が、各桁の出現確率の偏りとして現れるのです。

2. 指数的な成長



株価や人口など、指数関数的に成長するような数値データは、時間が経つにつれて値が一定の割合で増加します。値が倍になるまでの時間が一定である場合、例えば100から始まる値が倍々に増えていくと、100台(最初の桁が1)にとどまる期間は、200台(最初の桁が2)や300台(最初の桁が3)にとどまる期間よりも長くなります。値が大きくなるにつれて、次の桁に移るまでの期間は相対的に短くなるため、小さい数字、特に1が最初の桁になる頻度が高くなります。

3. スケール不変性



この法則は、測定単位を変更しても成り立ちます。例えば、長さをフィートで測ってもヤードで測っても、最初の桁の分布は同じであるはずです。1ヤードが3フィートであるように、単位間の変換は数値を定数倍することに相当します。このようなスケール変換に対して分布が変わらないという性質を満たすのは、対数的な分布だけであることから、ベンフォードの法則が導かれます。

4. 多重確率分布



身長やIQのように、特定の範囲に集中する(正規分布に近い)データ単体ではベンフォードの法則に従いにくいことがあります。しかし、異なる種類のデータ集合を複数混ぜ合わせ、そこからランダムに抽出した数値の集合は、ベンフォードの法則に近づくことが証明されています。新聞記事などから無作為に数値を集めた場合などがこれに該当します。

応用と限界



ベンフォードの法則は、データの持つ自然な偏りを示すものであるため、データの異常や作為的な操作を検出するためのツールとして利用されています。例えば、不正な会計データや選挙結果の数値は、人為的に作られたものであるため、しばしばベンフォードの法則に従わず、桁の分布が一様になりがちです。これを利用して、データの信頼性を検証する監査やフォレンジック会計の分野で応用されています。特に、最初の桁だけでなく、2桁目以降の分布も調べることで、より詳細な分析が可能になります。

ただし、この法則を適用する際には注意が必要です。データの性質によっては、意図せずともベンフォードの法則から外れることがあります。例えば、「人口が300人から999人の村の人口」のような、特定の範囲に限定されたデータや、定義によって特定の数値が除外されるデータ集合(例:「50ドルから100ドルの小額保険金請求」)には、単純に法則を適用することはできません。データの由来や性質を理解した上で、慎重に適用する必要があります。

数学的な表現



基底 b (b ≥ 2) のときの最初の桁 d (d ∈ {1, …, b − 1}) の出現確率は、以下の式で表されます。

P(d) = log\_b((d + 1) / d)

基底10の場合(十進数)の最初の桁の確率は、この式に従い計算できます。例えば、最初の桁が1である確率は log\_10(2/1) = log\_10(2) ≈ 0.301、最初の桁が2である確率は log\_10(3/2) = log\_10(1.5) ≈ 0.176、そして最初の桁が9である確率は log\_10(10/9) ≈ 0.046 となり、小さい数字ほど確率が高いという法則が数学的に裏付けられます。

この法則は、データが持つ興味深い性質を示すものであり、様々な分野で理論的探求や実用的応用が進められています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。