ケンドールの順位相関係数

ケンドールの順位相関係数



ケンドールの順位相関係数(Kendall rank correlation coefficient)、略してケンドールのタウ係数は、順位データ間の相関を測定するための数値です。この指標は、特に社会科学や生物統計学において、異なるデータセットの関連性の強さを示すために使用されます。1938年にモーリス・ケンドールによって考案され、その後、広く受け入れられています。

定義



ケンドールの順位相関係数は、次のように定義されます。順位データとして、\( x = (x_1, x_2, \, \ldots, x_n) \) と \( y = (y_1, y_2, \, \ldots, y_n) \) の2つの系列が与えられた時、ケンドールのタウ \( τ \) は以下の数式で表されます。

\[
τ = \frac{K - L}{\binom{n}{2}}
\]

ここで、\( K \) は順位が一致する組み合わせの数、\( L \) は順位が不一致の組み合わせの数です。具体的には、\( K \) は以下のように定義されます。

\[
K = \#\{\{i,j\} \in \binom{[n]}{2} \mid x_i \lessgtr x_j, \ y_i \lessgtr y_j\}\}
\]

そして、\( L \) は以下のように定義されます。

\[
L = \#\{\{i,j\} \in \binom{[n]}{2} \mid
eg (x_i \lessgtr x_j, \ y_i \lessgtr y_j)\}\}
\]

この数式における二項係数 \( \binom{n}{2} \) は、n項目から2項目を選ぶ組み合わせの総数を示します。

特性



ケンドールの順位相関係数には、以下のような特性があります。
  • - 完全一致: もし順位が完全に一致している場合(すなわち \( L = 0 \))、ケンドールのタウは \( +1 \) となります。
  • - 完全不一致: 逆に、順位が完全に一致していなければ(すなわち \( K = 0 \))、\( τ \) は \( -1 \) になります。
  • - 独立性: すべての場合において、\( τ \) の値は \( -1 \) と \( +1 \) の間にあり、その値が増加することは相関の強さの増加を示します。さらに、順位が完全に独立している場合は、\( τ \) の値は0となります。

このように、ケンドールの順位相関係数は、データの関係性を理解するための強力なツールです。その計算方法はスピアマンの順位相関係数と似ていますが、ケンドールは同時に崩れた順位がどれだけあるかに着目している点が異なります。

関連文献



ケンドールの順位相関に関連する研究や参考文献も多くあり、初出の文献や現代のデータ解析に関する書籍が役立ちます。例えば、脇本和昌による『身近なデータによる統計解析入門』や、Kendall自身による研究論文がその一例です。

まとめ



ケンドールの順位相関係数は、順位データ間の関連性を評価する上で重要な指標です。統計解析やデータサイエンスにおいて、データセット間の関係を把握するために非常に有用であり、今後も多くの分野で利用され続けることでしょう。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。