ケンドールの
順位相関係数(Kendall rank correlation coefficient)、略してケンドールのタウ係数は、
順位データ間の
相関を測定するための数値です。この指標は、特に社会科学や生物
統計学において、異なるデータセットの関連性の強さを示すために使用されます。
1938年にモーリス・ケンドールによって考案され、その後、広く受け入れられています。
定義
ケンドールの
順位相関係数は、次のように定義されます。
順位データとして、\( x = (x_1, x_2, \, \ldots, x_n) \) と \( y = (y_1, y_2, \, \ldots, y_n) \) の2つの系列が与えられた時、ケンドールのタウ \( τ \) は以下の数式で表されます。
\[
τ = \frac{K - L}{\binom{n}{2}}
\]
ここで、\( K \) は
順位が一致する組み合わせの数、\( L \) は
順位が不一致の組み合わせの数です。具体的には、\( K \) は以下のように定義されます。
\[
K = \#\{\{i,j\} \in \binom{[n]}{2} \mid x_i \lessgtr x_j, \ y_i \lessgtr y_j\}\}
\]
そして、\( L \) は以下のように定義されます。
\[
L = \#\{\{i,j\} \in \binom{[n]}{2} \mid
eg (x_i \lessgtr x_j, \ y_i \lessgtr y_j)\}\}
\]
この数式における
二項係数 \( \binom{n}{2} \) は、n項目から2項目を選ぶ組み合わせの総数を示します。
特性
ケンドールの
順位相関係数には、以下のような特性があります。
- - 完全一致: もし順位が完全に一致している場合(すなわち \( L = 0 \))、ケンドールのタウは \( +1 \) となります。
- - 完全不一致: 逆に、順位が完全に一致していなければ(すなわち \( K = 0 \))、\( τ \) は \( -1 \) になります。
- - 独立性: すべての場合において、\( τ \) の値は \( -1 \) と \( +1 \) の間にあり、その値が増加することは相関の強さの増加を示します。さらに、順位が完全に独立している場合は、\( τ \) の値は0となります。
このように、ケンドールの
順位相関係数は、データの関係性を理解するための強力なツールです。その計算方法はスピアマンの
順位相関係数と似ていますが、ケンドールは同時に崩れた
順位がどれだけあるかに着目している点が異なります。
関連文献
ケンドールの
順位相関に関連する研究や参考文献も多くあり、初出の文献や現代のデータ解析に関する書籍が役立ちます。例えば、脇本和昌による『身近なデータによる
統計解析入門』や、Kendall自身による研究論文がその一例です。
まとめ
ケンドールの
順位相関係数は、
順位データ間の関連性を評価する上で重要な指標です。
統計解析やデータサイエンスにおいて、データセット間の関係を把握するために非常に有用であり、今後も多くの分野で利用され続けることでしょう。