ベイジアンフィルタとは
ベイジアンフィルタは、
単純ベイズ分類器を応用したフィルタリング技術です。対象となるデータを解析・学習することで、データを分類します。学習量が増えるほど分類精度が向上するという特徴を持ち、誤判定があった場合にはユーザーが修正することで再学習が可能です。
主にスパムメールフィルタリングに利用されており、近年ではWeblogの
トラックバックフィルタなど、利用範囲が拡大しています。
概要
ベイジアンフィルタは初期状態でもある程度の分類が可能ですが、学習データが増えるにつれてその精度は高まります。ユーザーによる再学習は必要ですが、精度が向上すると再学習の頻度は減ります。
従来型のキーワード指定フィルタとは異なり、ベイジアンフィルタはデータの内容を学習して自動的に分類します。これにより、ユーザーは煩雑なキーワード設定を行う必要がなく、初心者でも扱いやすいのが特徴です。また、迷惑メールの内容が変化した場合でも統計的に解析するため、大量の迷惑メールに対応できます。フィルタによっては、特定のキーワードやアドレスからのメールを優先的に受け付ける機能も搭載されています。
登場の経緯
従来のフィルタリング
ソフトウェアでは、受信拒否するアドレスや、メールの件名・本文に含まれる特定のキーワードをユーザーが手動で設定する必要がありました。しかし、キーワードの一部を
伏字にしたような迷惑メールには対応できず、可変的な迷惑メールに対しては無力でした。
この問題を解決するために、迷惑メールの特徴を確率統計的に分析し、分類に利用するベイジアンフィルタが登場しました。
伏字を多用したメールはスパムメールの特徴であるため、ベイジアンフィルタによって排除されやすくなります。
ベイジアンフィルタは、2002年に
ポール・グレアムが発表した論文「A Plan for Spam」が基になり開発されました。その後、改良されたアルゴリズムは「Better Bayesian Filtering」で発表されています。
日本語環境特有の問題
ベイジアンフィルタの解析は単語単位で行われるため、解析前に文章を単語単位に分解する必要があります。
英語のように単語がスペースで区切られている言語と異なり、日本語には単語を区切るための明確な印がないため、
形態素解析などの
自然言語処理技術が必要となります。そのため、言語によって分解方法が異なり、フィルタ精度に影響を与える可能性があります。
また、日本語メールでは
文字コードの問題も存在します。通常はISO-2022-JPが使用されますが、MIMEのcharset指定によっては他の
文字コードも使用可能です。さらに、スパムメールではMIMEのcharset指定と実際の
文字コードを意図的に異なる設定にする場合もあります。そのため、
文字コードを推定する処理が必要になります。このような問題は、メールソフトの
文字コードに対する寛容さが原因の一つと考えられます。
以下にベイジアンフィルタを採用している主な
ソフトウェアを記載します。
クライアントPC上で動作するスパムフィルタ
POPFile
Shuriken (ジャストシステム)
Mozilla Application Suite
SeaMonkey
Mozilla Thunderbird
Eudora
Becky!2専用のスパムフィルタ(BkASPil for Becky!2、Becky! メールセキュリティ)
SpamSieve (macOS)
JunkMatcher (macOS)
受信サーバ上で動作するスパムフィルタ
bsfilter (
Ruby)
bogofilter
SpamAssassin
CRM114
SPAMBlock
sbcayes
その他
Norton AntiSpam
McAfee SpamKiller
参考文献
Graham, Paul (August 2002). A Plan for Spam.
ポール・グレアム; Shiro Kawai (2005年2月8日). スパムへの対策 ---A Plan for Spam.
Graham, Paul (January 2003). Better Bayesian Filtering.
ポール・グレアム; Shiro Kawai (2003年8月15日). ベイジアンフィルタの改善 --- Better Bayesian Filtering.
Graham, Paul (August 2003). Filters That Fight Back.
ポール・グレアム; Shiro Kawai (2003年8月11日). 反撃するフィルタ --- Filters That Fight Back.
Graham, Paul (May 2004). Hackers and Painters: Big Ideas from Computer Age.
Paul Graham『ハッカーと画家
コンピュータ時代の創造者たち』川合史朗 監訳、
オーム社、2005年1月。
関連項目
単純ベイズ分類器
スパムメール
メールフィルタ
外部リンク
各spamフィルタリングツールに対する評価・意見
* スパム対策の基本技術解説:綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み (1/4)