分割表について
分割表(英: contingency table)は、異なる変数間の関係を視覚的に示すための
統計的手法です。この表は、名義尺度や順序尺度のデータを扱う際に広く用いられています。具体的には、2つ以上の変数の間にどのような関連性があるかを明らかにし、分析を行うために活用されます。
概要
例えば、性別(男性と女性)と
利き手(右手と左手)という2つの変数を考えてみましょう。100人から無作為に選ばれたサンプルのデータを観測すると、これらの変数の関係を分割表にまとめることができます。この表には、行周辺合計(row marginal total)や列周辺合計(column marginal total)といった重要な指標が含まれています。右下隅に位置する部分は総計(grand total)と呼ばれ、全体のデータを反映する役割を果たします。
このように作成された分割表を解析することで、例えば男性の右利きの割合が女性と大きく異なるかどうかを判断できます。しかし、このような観察結果が単なる偶然であり得るかどうかを確かめるためには、
カイ二乗検定、
G検定、
フィッシャーの正確[[確率検定]]などの
統計的な
仮説検定が役立ちます。もしも各変数の行や列において、割合に顕著な差異が見られる場合、それは2つの変数間の「付随性」(contingency)が存在することを示唆しています。
分割表の形態
以上の説明で示された例は、最も単純な2×2分割表に該当します。もちろん、行や列は任意の数を持つことができ、一般にはr×sと表現される場合が多いです。また、3つ以上の変数を扱う場合には、m1×m2×…×mkというk重分割表も存在しますが、数が増えることで視覚的な表現は困難になります。なお、順序尺度においても分割表を使用することは可能ですが、名義尺度に比べると一般的な使用頻度は低いです。
関連性の評価
2つの変数間の関連性を評価するためには、さまざまな
統計的係数が利用されます。その中でも一般的なのがファイ係数(φ)であり、この値は
カイ二乗検定を基に算出されます。具体的には、次の式で表されます:
$$
φ = rac{√{χ²}}{N}
$$
ここで、χ²はカイ二乗の値、Nは全観測の合計を指します。ファイ係数は0から1の範囲で、0は変数間の関連性が全くないことを示し、1は完全な関連性を示します。このファイ係数は2×2分割表にのみ適用されるため、他にもテトラコリック相関係数、C係数、クラメールのV係数といった、異なる条件下で利用可能なさまざまな係数が存在します。これらの数値は、該当するデータの特性に基づき、最も適切な方法で選択することが重要です。
結論
分割表は、非常に有用な
統計手法であり、さまざまな分野でデータ分析に役立ちます。データの解釈にあたっては、分割表を適切に利用し、関連性を評価するための適切な
統計手法を選択することが重要です。これにより、データから得られる洞察がより深まり、意思決定に役立てることが可能となります。