Tf–idf

tf-idfとは



tf-idf(Term Frequency-Inverse Document Frequency)は、情報検索テキストマイニング、ユーザーモデリングにおいて、単語の重要性や文書の関連性を評価するための手法です。この手法は、特定の単語がどれだけ文書内やコーパス全体で重要かを定量化しています。tf-idfは、単語の出現頻度(tf)と逆文書頻度(idf)を掛け合わせて算出されます。

1. 単語頻度 (Term Frequency)


単語頻度は、特定の単語が文書内でどれだけ出現するかを示す指標です。例えば、文書内で「apple」という単語が5回出現した場合、その文書内の単語の合計数が100であれば、tfは5/100、つまり0.05となります。この数値は、文書が長ければ長いほど相対的に小さくなるため、文書の長さに基づいた調整が必要です。文書の長さによって単語の重要性が偏らないように、例えば、出現頻度を文書内の単語数で除したり、対数を取ったりする手法もあります。

2. 逆文書頻度 (Inverse Document Frequency)


文書頻度は、特定の単語がコーパス全体でどれだけ珍しいかを示す指標です。この値は、文書全体でその単語が出現する文書の数を考慮して算出されます。例えば、もし「and」という単語が全文書の半分に出現している場合、この単語のidf値は低く、逆にあまり出現しない単語はidfが高くなります。こうすることで、頻出語によるノイズを軽減し、より意味のある単語に焦点を当てることが可能になります。

3. tf-idfの計算


tf-idfは、対応する文書内での単語頻度(tf)と逆文書頻度(idf)を掛け合わせることで計算されます。具体的な式は以下の通りです。

$$
ext{tf-idf}(t, d, D) = ext{tf}(t, d) imes ext{idf}(t, D)
$$

この式により、特定の単語が文書内でどれだけ重要であるか、そしてその単語が全体の文書に占める重要性を同時に評価できるのです。

4. 具体的な応用


tf-idfは情報検索エンジンでの文書のランキング、文書分類、自動要約など、様々な領域で活用されています。特に検索エンジンでは、ユーザークエリに関連する文書を優先的に表示するために、tf-idfを基にした重み付けが行われます。これにより、重要な情報を持つ文書がユーザーに提示される可能性が高まります。

5. tf-idfの進化


近年、tf-idfの考え方を進化させた手法も登場しています。例えば、TF-PDFやTF-IDuFのように、特定のドメインに特化した単語の重要性を測定するための修正がなされています。これにより、特定のユーザーのニーズに応じたより適切な文書のランキングが可能になります。

6. まとめ


tf-idfは、情報検索やテキスト処理の基礎的な手法として、文書内の重要な単語を特定することに役立ちます。今後も、情報量が増大する中でその適用範囲は広がっていくでしょう。その結果、より洗練された文書の関連性評価が期待されます。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。