P値

p値

p値（ピーち、p-value）は、統計的仮説検定、特に帰無仮説の有意性検定において中心的な役割を果たす指標です。これは、検証したい「帰無仮説」が正しいと仮定した場合に、実際に観測されたデータ、あるいはそれよりもさらに珍しい（極端な）結果が得られる確率を示します。p値が小さければ小さいほど、観測されたデータは帰無仮説のもとでは起こりにくい出来事であったと解釈されます。

多くの学術研究で統計分析の結果としてp値が報告されていますが、その解釈や使い方には誤りが多いため、統計学や科学方法論における重要な課題の一つとなっています。例えば、p値が小さいからといって、それだけで帰無仮説が完全に間違っていると断定したり、対立する仮説が真である確率が高いと結論づけたりするのは誤りであると指摘されています。

アメリカ統計学会（ASA）は2016年に公式声明を発表し、p値が「研究対象の仮説が正しい確率」や「データが偶然のみで生じた確率」を測るものではないことを明確にしました。また、p値や統計的有意性は、効果の大きさや研究結果の重要性を示す指標ではないとも述べています。しかし、2019年のタスクフォースによる声明では、p値を含む統計的有意性検定は、適切に適用・解釈された場合には、データから導かれる結論の信頼性を向上させることが可能であると改めて強調されています。

基本的な考え方

統計学における「統計的仮説」とは、観測データの背後にある未知の確率分布に関する推測のことです。「帰無仮説検定」では、特に「帰無仮説」と呼ばれる特定の仮説がデータによって支持されるかどうかを検証します。通常、帰無仮説は「効果がない」「差がない」「関連がない」といった、特定の特性が存在しないという前提に基づいています。例えば、二つのグループ間の平均値に差がない、変数間に相関がない、といった仮説がこれにあたります。

実際の分析では、観測データを集計した「検定統計量」と呼ばれる単一の数値を利用することが一般的です。p値は、この検定統計量の観測値が、帰無仮説が真であると仮定した場合の統計量の分布において、どれだけ極端な位置にあるかを確率として示すものです。

計算されたp値が非常に小さい場合、帰無仮説が正しいという条件下では、そのような極端な観測結果はめったに起こらないと考えられます。このとき、研究者は帰無仮説を「棄却」し、結果を「統計的に有意である」と判断することがあります。原則として、p値が小さいほど、帰無仮説に反する証拠が強いと見なされますが、これには慎重な解釈が必要です。

帰無仮説を棄却するということは、単に「データが帰無仮説と矛盾している」ことを意味するのであって、その理由が、特定の対立仮説が真であることにあるのか、それともデータやモデルの前提に問題があるのか、といった具体的な点はp値だけでは分かりません。

定義と解釈の仕方

p値は、帰無仮説が真であるという条件下で、観測された検定統計量の値と比べて、「少なくとも同じくらい極端な」値が得られる確率です。「極端さ」の定義は、研究者がどちらの方向に偏りがあるかに関心を持つかによって異なり、大きく分けて「片側検定」と「両側検定」があります。

片側検定: 特定の方向（例: 平均値が増加したか、相関が正であるか）への偏りに関心がある場合。p値はその方向への極端さの確率を示します。
両側検定: 正または負、いずれかの方向への偏りに関心がある場合。p値は観測値の絶対値と同等かそれ以上の絶対値を持つ統計量が得られる確率を示します。

統計的有意差検定では、研究を開始する前にあらかじめ「有意水準（α）」と呼ばれる閾値を設定します。この有意水準は、データに基づいて決定されるものではなく、通常は0.05（5%）が広く用いられますが、より厳密な研究では0.01（1%）などが使われることもあります。近年、統計学者の間では、より小さな0.005を標準的な有意水準とする提案も出ています。

観測データから計算されたp値が、この有意水準αを下回る場合（p値 < α）、帰無仮説は統計的に有意な水準で棄却されます。これは、帰無仮説が真であると仮定した場合に、観測された結果がαよりも低い確率でしか起こらないため、「帰無仮説をそのまま受け入れるのは難しい」と判断することを意味します。

p値の誤った理解と批判

p値は非常に有用なツールである一方、その誤った解釈や過信が多くの問題を引き起こしています。

最も一般的な誤解は、p値が「帰無仮説が真である確率」や「対立仮説が真である確率」を示すものであるというものです。これは全くの誤りです。p値は、あくまで帰無仮説が真であるという前提のもとで、特定のデータが得られる確率を評価するものであり、仮説そのものの確率を示すものではありません。

また、p値が小さい（例えば0.05未満）からといって、それだけで「重要な効果がある」「実質的に意味のある発見である」と結論づけることも避けるべきです。統計的に有意であることと、科学的に、あるいは実社会的に意味のある効果量が存在することは全く別の問題です。

これらの問題から、統計学者の間ではp値の使用そのものに対する批判や、代替となる指標（信頼区間、ベイズ因子など）の使用を推奨する動きもあります。しかし、ASAの2019年の声明が示すように、p値も適切に用いられ、研究デザインの質、測定の正確さ、関連分野の既存知識といった文脈的要因と合わせて総合的に判断されるのであれば、科学的結論の厳密性を支える上で有効なツールとなり得ます。

計算と歴史

p値の計算には、まずデータから特定の「検定統計量」を算出し、次に帰無仮説のもとでのその統計量の理論的な確率分布を知る必要があります。そして、観測された統計量の値が、その分布においてどれだけ極端な位置にあるかを確率として求めます。

古くは、この確率は統計学者が作成した数値表を参照して手計算で求められていましたが、現在では統計解析ソフトウェアやプログラミング言語を用いて容易に計算できます。計算方法や理論的分布は、データの種類や検定したい仮説によって異なり、例えば正規分布に基づいたz検定やt検定、カテゴリデータに対するカイ二乗検定など、様々な手法があります。

p値の概念は古くから存在し、18世紀初頭には既に、観測された現象が偶然によるものか否かを判断するために類似の確率計算が行われていました。19世紀末に統計学が発展する中で、カール・ピアソンがカイ二乗検定と共にp値を形式的に導入しました。そして20世紀半ば、ロナルド・フィッシャーがp値を科学的研究における有意性検定の中心的なツールとして体系化し、広く普及させました。フィッシャーは特に0.05という有意水準の目安を提案し、「紅茶の違いのわかる婦人」の実験例などを通じてその考え方を示しました。

このように、p値は統計的推測において重要な役割を果たしてきた概念であり、その適切な理解と慎重な利用が求められています。

もう一度検索