多重比較問題
統計学の世界では、ある現象について複数の疑問を同時に検証したり、データの特徴を見てから特定の項目に絞って分析したりすることがよくあります。このような場合に登場するのが「多重比較問題」、あるいは「多重検定問題」と呼ばれる課題です。これは、たくさんの
統計的検定を一度に行うことで、偶然によって誤った結論(本当は効果や差がないのに「ある」と見なしてしまうこと)を導いてしまう可能性が高くなるという問題です。
例えるなら、コイン投げを何度も行うようなものです。公正なコインでも、1回投げれば表が出る確率は50%ですが、10回投げれば一度も表が出ないこともあれば、連続で表が出ることもあります。
統計的検定もこれに似ており、たとえ
帰無仮説(効果がない、差がないなど)が真実であっても、一定の確率(例えば
有意水準5%)で誤って
帰無仮説を
棄却してしまいます。この確率が単一の検定では小さくても、検定の数が増えるにつれて、「少なくとも1回は」誤って
棄却する確率、つまり偽陽性(第一種過誤)を検出してしまう確率が急激に上昇してしまうのです。
具体例を考えてみましょう。新しいライティング指導法を検証するために、生徒の文法、スペル、構成、内容など、様々な側面で標準的な指導法と比較するとします。比較する項目が多いほど、たとえ両方の指導法に本質的な差がなくても、偶然によってどれか一つの項目で
統計的に「差がある」と見えてしまう可能性が高くなります。同様に、ある薬の有効性をいくつかの異なる病気の症状について調べるとき、多くの症状を検討するほど、偶然にある症状に対して薬が効果を発揮したように見える可能性が高まります。
統計的に言うと、例えば
有意水準5%で一つの検定を行う場合、真の
帰無仮説を誤って
棄却する確率はちょうど5%です。しかし、もし真の
帰無仮説が全て正しいような状況で、この検定を100回独立して行った場合、
平均的には5回の誤った
棄却が期待されます。さらに驚くべきことに、少なくとも1回以上の誤った
棄却が起こる確率は約99.4%にも達します。これは、多数の検定を行うことで、ほぼ確実に少なくとも一つの誤った「発見」をしてしまうことを意味します。
このような偽陽性率の上昇は、研究結果の信頼性を損ない、非再現性の問題を引き起こす大きな原因となります。
歴史的な背景
多重比較問題は、比較的小規模な研究が主流だった時代から認識されていました。特に1950年代には、
統計学者のジョン・テューキーやヘンリー・シェッフェといったパイオニアたちがこの問題に注目し、その解決に向けた研究が進められました。彼らの研究を皮切りに、数十年にわたって様々な
統計的手法が開発され、多重比較の適切な扱い方が探求されてきました。多重比較に関する初めての国際会議が1996年に開催されたことは、この問題が
統計学の重要なテーマとして確立されたことを示しています。
多重比較の制御手法
多重比較問題に対処するためには、「補正」と呼ばれる手法が用いられます。これは、個々の検定に対してより厳しい
有意水準を設けることで、分析全体での誤った発見のリスクを抑えることを目的としています。補正の方法は、制御したいエラーの種類によって大きく二つに分けられます。
一つは「ファミリーワイズエラー率(FWER)」を制御する方法です。これは、一連の多重比較全体で、少なくとも一つでも偽陽性が発生する確率を特定の水準(例えば5%)以下に抑えようとする考え方です。最もよく知られたFWER制御法に「ボンフェローニ補正」があります。これは単純に、設定したい全体の
有意水準を検定の数で割った値を、個々の検定の
有意水準として用いる方法です。この方法は非常に保守的で、検定間の関連性にかかわらず適用できるという利点がありますが、検出力が低下しやすい(本当の効果を見つけにくくなる)という欠点もあります。
ボンフェローニ補正よりも少し緩和された方法として「シダック補正」があります。これは検定が互いに独立であるという仮定のもとで、全体の
有意水準を保つように個々の
有意水準を計算する方法です。また、「ホルム=ボンフェローニ法」は、p値を小さい順に並べ替え、段階的に異なる基準を適用することで、ボンフェローニ補正よりも検出力を高めることができる改良法です。
もう一つは「偽発見率(FDR)」を制御する方法です。これは、
統計的に
有意と判断された結果全体のうち、偽陽性が含まれる割合を特定の水準以下に抑えようという考え方です。FWERが「少なくとも一つの偽陽性が出る確率」を制御するのに対し、FDRは「
有意と判断されたものの中に含まれる偽陽性の『割合』」を制御します。FDR制御はFWER制御よりも緩やかであり、より多くの「発見」を報告できる可能性があるため、特に探索的な研究や、後で追試が可能な研究分野で好まれます。
大規模な多重検定と現代の課題
近年、科学技術の進歩、特に生命科学分野(ゲノミクス、マイクロアレイなど)やデータサイエンスの発展により、一度に数千、数万、あるいはそれ以上の
統計的検定を行う機会が飛躍的に増えました。このような「大規模な多重検定」においては、伝統的な補正手法だけでは十分に対応できない場合が出てきました。大規模なデータセットを用いた探索的な分析は容易になった一方で、事前に強い根拠がないまま多数の仮説を検証することが増え、適切な補正を行わないと非常に高い確率で誤った結論を導いてしまいます。
特に遺伝子研究などでは、ある研究で
有意な関連が見つかっても、別の研究で再現されないという問題が頻繁に起こります。これは多くの原因が考えられますが、多重比較による偽陽性が一因である可能性が指摘されています。
断定的な結果が求められる研究では引き続きFWER制御が重視されますが、膨大なデータの中から有望な候補を絞り込み、その後に詳細な検証を行う探索的な研究では、FDR制御が現実的な手法として広く用いられるようになっています。
また、
統計的に
有意な結果を得るために、適切な補正を行わずに多数の項目を分析したり、都合の良い結果が出るまで分析手法を試行錯誤したりする行為は「p-ハッキング」と呼ばれ、研究の信頼性を揺るがす問題として厳しく批判されています。
まとめ
多重比較問題は、
統計分析において避けて通れない重要な課題です。複数の検定を同時に行う際には、単一の検定とは異なるエラー率の特性を理解し、分析の目的や文脈に応じて適切な多重比較補正手法を適用することが不可欠です。これにより、偶然による誤った結論を避け、より信頼性の高い研究結果を得ることができます。
関連キーワード
仮説検定、偽陽性(第一種過誤)、偽陰性(第二種過誤)、
有意水準、p値、ボンフェローニ補正、ファミリーワイズエラー率 (FWER)、偽発見率 (FDR)、p-ハッキング