統計的にありそうもないフレーズ(Statistically Improbable Phrase)とは、文書内で、その文書の
コーパス全体における出現頻度と比較して、極めて高い頻度で現れる単語やフレーズの組み合わせを指します。これは、単に一般的な言葉が頻出するのではなく、特定の文書の内容を特徴づけるような、偏った言葉の使われ方を捉える概念です。
例えば、コンピュータ関連の文書において「the」という単語は非常に頻繁に登場しますが、「the」は英語で最も一般的な単語の一つであり、あらゆる文書で頻繁に使われます。しかし、「明示的なブーリアンアルゴリズム」のようなフレーズは、一般的な英語のテキストよりも、コンピュータ関連の文書でより高い確率で出現します。この例のように、文書全体での出現頻度に比べて特定の文書内での出現頻度が著しく高いフレーズが、統計的にありそうもないフレーズとして認識されます。
この概念は、文書のキーワードを決定するのに役立ちます。例えば、
Amazon.comでは、書籍の章に含まれるキーワードが章内で偏って出現することに着目し、特定の書籍や章を識別するための指標として活用しています。また、クリスチャン・ラダーは著書『Dataclysm』の中で、出会い系サイトやTwitterの投稿データを用いて、特定の人種や性別に特徴的なフレーズを分析するためにこの概念を応用しました。
統計的にありそうもないフレーズの具体例としては、ダーウィンの『
種の起源』の中では、「temperate productions」「genera descended」「transitional gradations」「unknown progenitor」「fossiliferous formations」「our domestic breeds」「modified offspring」「doubtful forms」「closely allied forms」「profitable variations」「enormously remote」「transitional grades」「very distinct species and mongrel offspring」などが挙げられます。これらのフレーズは、ダーウィンの進化論に関する議論の中で頻繁に使われるものの、一般的な英語のテキストの中ではそれほど頻繁には出現しない、偏った使用例を示しています。
関連概念として、Googlewhackは、Google検索で2つの単語を組み合わせたときに検索結果が1件だけになるような組み合わせを探すゲームです。また、tf-idf(term frequency-inverse document frequency)は、情報検索やテキストマイニングにおいて、単語の重要度を測るための統計的な手法であり、特定の文書における単語の出現頻度と、文書全体における出現頻度を考慮します。これらの概念は、文書内の単語やフレーズの重要度や特徴を捉えるという点で、統計的にありそうもないフレーズと共通しています。
統計的にありそうもないフレーズは、文書の特徴を理解し、特定の話題に関する情報を抽出する上で非常に有用な概念です。この概念を活用することで、文書の内容をより深く理解し、情報検索やテキストマイニングの精度を向上させることが期待できます。また、ソーシャルメディア分析など、様々な分野での応用も進んでいます。