局所外れ値因子法(LOF)とは
局所
外れ値因子法、通称LOFは、2000年にMarkus M. Breunig、Hans-Peter Kriegel、Raymond T. Ng、Jörg Sanderによって提案された異常検知アルゴリズムです。この手法は、データセット内の任意のポイントを取り巻く近傍点の局所的な密度の変動を評価することで、異常を効果的に特定します。
LOFの原理
LOFの中心的なアイディアは、局所密度の比較に基づいています。特定のデータポイントの近傍には、k個の最近傍点が存在し、これらとの距離によってそのポイントの局所密度を推定します。LOFは、あるデータポイントの密度をその近傍ポイントの密度と比較することで周囲よりも顕著に密度が低いポイントを特定し、これを異常と判断します。この際、データポイントの"到達可能性距離"を利用して、より安定した密度の評価を行います。
公式な定式化
LOFの計算は、以下のように進められます。まず、対象のデータポイントAのk距離を定義します。このk距離は、データポイントAからのk番目に近い点までの距離であり、この距離以下の全てのデータポイントをk近傍点と呼びます。このk近傍点の集合をN
k(A)と表記します。
次に、到達可能性距離は次のように定義されます。
$$
ext{reachability-distance}_k(A,B) = ext{max}ig( ext{k-distance}(B), d(A,B)ig)
$$
この式により、データポイントAの到達可能性距離は、その近傍にあるk近傍点Bからの真の距離と等しくなることが示されます。さらに、Aの局所到達可能性密度は次のように表されます。
$$
ext{lrd}_k(A) = rac{1}{rac{1}{|N_k(A)|} imes igg( ext{sum}igg( ext{reachability-distance}_k(A,B)igg) igg)}
$$
これは、近隣との到達可能性距離の平均の逆数です。
LOFスコアの計算とその解釈
次にLOFスコアを算出します。LOFスコアは以下の方法で計算されます。
$$
ext{LOF}_k(A) = rac{ ext{sum}igg(rac{ ext{lrd}(B)}{ ext{lrd}(A)}igg)}{|N_k(A)|}
$$
この数式では、近傍の局所到達可能性密度の平均を、対象点自身の局所到達可能性密度で割ることで、対象ポイントが近傍と同程度かどうかを示します。LOFスコアが1に近い値であれば、対象ポイントはきわめて類似していると判断され、1より小さい場合は高密度の領域にあると見なされます。一方、1より大きい場合は低密度の領域にあり、
外れ値である可能性が高まります。
LOFの利点
局所
外れ値因子法の大きな利点は、局所的なアプローチであるため、異なるデータ領域間の影響を受けずに
外れ値を検出できる点です。例えば、ある倍密度のクラスタの近くにあっても、まばらなクラスタ内の点は異常データとして識別される可能性があります。また、LOFは低次元データに限らず、幅広い状況に適用可能な点も評価されており、
侵入検知システムや分類タスクなどで優れた成果を上げてきました。
まとめ
局所
外れ値因子法は、その柔軟性と高い精度により、多様なアプリケーションにおいて有用性を発揮します。しかしながら、
外れ値の判断が難しかったり、局所性に起因する問題が生じたりすることもあります。こうした課題を克服するための手法も開発されており、新たなアプローチとして、
外れ値の検知精度向上のための様々な進展が期待されています。