F値(F-Measure)
F値、またはF尺度とは、
二項分類におけるモデルの精度を測るための重要な
統計指標です。この指標は、適合率(Precision)と再現率(Recall)を基にして算出されます。適合率は、陽性と予測したケースの中で実際に正しく陽性であった割合を示し、再現率は、実際に陽性のケースの中で正しく陽性と予測できた割合を示します。
適合率と再現率は、以下のように定義されることがあります:
\[ \text{Precision} = \frac{TP}{TP + FP} \]
\[ \text{Recall} = \frac{TP}{TP + FN} \]
ここで、TPは真陽性、FPは偽陽性、FNは偽陰性を指します。F値(特にF1スコア)は、これら二つの指標の調和
平均として計算されます。F1スコアは次の式で表されます。
\[ F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} \]
このように、F1スコアは両者のバランスを重視した指標といえますが、場合によっては適合率または再現率を重点的に評価したいことがあります。そのために、重み付けを加えたF値(Weighted F-score)という形での評価も行われます。このF値は、適合率と再現率に対して異なる重みを付け、その後に調和
平均を計算します。
F値の範囲は、0から1までであり、1に近いほど精度が高いとされます。特に、F値が1.0である状態は、適合率と再現率がともに100%であることを意味します。
F値の歴史と由来
F値という名称は、1992年に開催された第4回メッセージ理解会議において、Van Rijsbergen氏の著書に記されていた別の関数に由来しています。これにより、F値の概念が広まりました。
F値の応用
F値は
情報検索の分野で特に重要で、
文書分類やクエリ分類の性能を評価する際によく使用されます。初期には主にF1スコアが注目されていましたが、大規模な検索システムの導入に伴い、精度や再現率のいずれかに重みを置くFβが多く使われるようになりました。また、F値は機械学習においても広く使われる指標でありますが、真陰性を無視するため、他の評価指標と併用して用いることが推奨されます。
F値に関する批判
F1スコアは、適合率と再現率を同等に重視するため、一部の専門家からは批判されています。特に、誤分類のコストが異なる場合、その判断が適切でないことがあります。また、この評価方法はクラスの不均衡に対して敏感であるため、別の評価指標の使用が望まれることがあります。
Fowlkes–Mallows インデックスとの違い
F値は再現率と適合率の調和
平均ですが、Fowlkes–Mallowsインデックスはそれらの幾何
平均を用いるため、完全には同じ意味を持つものではありません。
多クラス分類への適用
F値は単一のクラスの分類に限らず、三つ以上のクラスを対象とした多クラス分類の評価にも適用可能です。この場合、得られるスコアは、ミクロ
平均またはマクロ
平均を用いて算出されます。特にマクロ
平均で求めるF値は、各クラスを均等に扱うため、望ましい特性を示すと言われています。
F値はまた、混同行列、受信者動作特性曲線など、さまざまな
統計的評価指標の文脈で使用されます。