ベイジアンフィルタ

ベイジアンフィルタとは



ベイジアンフィルタは、単純ベイズ分類器を応用したフィルタリング技術です。対象となるデータを解析・学習することで、データを分類します。学習量が増えるほど分類精度が向上するという特徴を持ち、誤判定があった場合にはユーザーが修正することで再学習が可能です。

主にスパムメールフィルタリングに利用されており、近年ではWeblogのトラックバックフィルタなど、利用範囲が拡大しています。

概要



ベイジアンフィルタは初期状態でもある程度の分類が可能ですが、学習データが増えるにつれてその精度は高まります。ユーザーによる再学習は必要ですが、精度が向上すると再学習の頻度は減ります。

従来型のキーワード指定フィルタとは異なり、ベイジアンフィルタはデータの内容を学習して自動的に分類します。これにより、ユーザーは煩雑なキーワード設定を行う必要がなく、初心者でも扱いやすいのが特徴です。また、迷惑メールの内容が変化した場合でも統計的に解析するため、大量の迷惑メールに対応できます。フィルタによっては、特定のキーワードやアドレスからのメールを優先的に受け付ける機能も搭載されています。

登場の経緯



従来のフィルタリングソフトウェアでは、受信拒否するアドレスや、メールの件名・本文に含まれる特定のキーワードをユーザーが手動で設定する必要がありました。しかし、キーワードの一部を伏字にしたような迷惑メールには対応できず、可変的な迷惑メールに対しては無力でした。

この問題を解決するために、迷惑メールの特徴を確率統計的に分析し、分類に利用するベイジアンフィルタが登場しました。伏字を多用したメールはスパムメールの特徴であるため、ベイジアンフィルタによって排除されやすくなります。

ベイジアンフィルタは、2002年にポール・グレアムが発表した論文「A Plan for Spam」が基になり開発されました。その後、改良されたアルゴリズムは「Better Bayesian Filtering」で発表されています。

日本語環境特有の問題



ベイジアンフィルタの解析は単語単位で行われるため、解析前に文章を単語単位に分解する必要があります。英語のように単語がスペースで区切られている言語と異なり、日本語には単語を区切るための明確な印がないため、形態素解析などの自然言語処理技術が必要となります。そのため、言語によって分解方法が異なり、フィルタ精度に影響を与える可能性があります。

また、日本語メールでは文字コードの問題も存在します。通常はISO-2022-JPが使用されますが、MIMEのcharset指定によっては他の文字コードも使用可能です。さらに、スパムメールではMIMEのcharset指定と実際の文字コードを意図的に異なる設定にする場合もあります。そのため、文字コードを推定する処理が必要になります。このような問題は、メールソフトの文字コードに対する寛容さが原因の一つと考えられます。

採用している主なソフトウェア



以下にベイジアンフィルタを採用している主なソフトウェアを記載します。

クライアントPC上で動作するスパムフィルタ
POPFile
Shuriken (ジャストシステム)
Mozilla Application Suite
SeaMonkey
Mozilla Thunderbird
Eudora
Becky!2専用のスパムフィルタ(BkASPil for Becky!2、Becky! メールセキュリティ)
SpamSieve (macOS)
JunkMatcher (macOS)
受信サーバ上で動作するスパムフィルタ
bsfilter (Ruby)
bogofilter
SpamAssassin
CRM114
SPAMBlock
sbcayes
その他
Norton AntiSpam
McAfee SpamKiller

参考文献



Graham, Paul (August 2002). A Plan for Spam.
ポール・グレアム; Shiro Kawai (2005年2月8日). スパムへの対策 ---A Plan for Spam.
Graham, Paul (January 2003). Better Bayesian Filtering.
ポール・グレアム; Shiro Kawai (2003年8月15日). ベイジアンフィルタの改善 --- Better Bayesian Filtering.
Graham, Paul (August 2003). Filters That Fight Back.
ポール・グレアム; Shiro Kawai (2003年8月11日). 反撃するフィルタ --- Filters That Fight Back.
Graham, Paul (May 2004). Hackers and Painters: Big Ideas from Computer Age.
Paul Graham『ハッカーと画家 コンピュータ時代の創造者たち』川合史朗 監訳、オーム社、2005年1月。

関連項目



単純ベイズ分類器
スパムメール
メールフィルタ

外部リンク



各spamフィルタリングツールに対する評価・意見
* スパム対策の基本技術解説:綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み (1/4)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。