情報検索とは、
コンピュータを用いて、大量のデータ群の中から利用者の目的に合致するデータを取り出す技術です。検索対象となるデータは、
文書、
画像、
音声、映像など、多岐にわたるメディアやそれらの組み合わせを含みます。
インターネットの発展により、検索はオンラインで行われることが一般的ですが、ここでは
情報検索を支える
コンピュータ側の仕組みについて詳しく解説します。
情報検索技術は、人間が直接データを管理するのに比べ、データ量や一貫性の制約を受けにくい利点があります。高速で安定したシステムにより、利用者に適切な
情報を提供することが可能です。
情報検索の全体像
情報検索は、様々な分野の技術を基盤としています。
データベースによるデータ管理、
自然言語処理による
文書解析、
信号処理による
画像や
音声の解析、
図書館情報学に基づく
メタデータの扱い、
数学理論を応用した検索
アルゴリズムなど、多岐にわたる要素技術が組み合わさって構成されています。
情報検索システムは、
情報検索を実現するための
ソフトウェアと
ハードウェアから成り立ちます。ここでは、特に
ソフトウェアに焦点を当て、現在広く利用されているシステムの構成について説明します。
情報検索の歴史と課題
1970年代には、学術文献や論文の管理を
コンピュータで行うため、大規模
図書館で
情報検索システムが導入されました。現在でも、
図書館の蔵書検索や
電子ジャーナル、統計
データベースなどで広く利用されています。
1990年代以降は、
Googleなどの
検索エンジンが普及し、Web上のデータを対象とした
情報検索が身近なものとなりました。
2000年代以降の
情報検索の課題は、以下のようにまとめられます。
Deep Web(ショッピングサイトなど)の検索
直感的なユーザーインターフェースの実現
人間のような高度な判断尺度を持つマルチメディア情報検索
複数のメディアを横断的に扱う
クロスメディア情報検索
多言語対応のマルチリンガル検索環境
P2Pネットワークなどの分散データ検索
情報検索システムの構成要素
情報検索システムは、以下の要素で構成されています。
データベース: 検索対象のデータを蓄積・管理します。
検索対象データ:
文書、
画像、
音声などの実際のデータです。
メタデータ(索引語): 検索対象データから生成された、検索のための情報(キーワードや要約など)です。
ユーザーインターフェース: ユーザーが検索語を入力するためのインターフェースです。
検索アルゴリズム: ユーザーの検索語とメタデータを照合し、適切なデータを抽出するアルゴリズムです。
検索は、ユーザーがインターフェースを通して検索語を入力し、検索アルゴリズムがデータベース内のメタデータと照合して適切なデータを選択、そのデータがユーザーに返されるという流れで行われます。例えば、Webサイトの情報検索では、Webサイトの内容が検索対象データ、Webサイトの要約やキーワードがメタデータ、検索エンジンがユーザーインターフェースと検索アルゴリズムに該当します。
情報検索システム構築の手順
情報検索システムの構築は、以下のフェーズを経て行われます。順序はシステムの内容や環境によって異なります。
1. 検索対象データ収集: 検索対象のデータを集める。Web上のデータであればクローラを使用します。網羅的な収集が重要ですが、Webデータは膨大で常に変化しているため、効率的な収集方法が求められます。
2. メタデータ作成: 収集したデータからメタデータを作成します。メタデータの形式や作成方法は、検索アルゴリズムと密接に関わります。大規模なデータでは、自動生成が重要になります。
3. 検索アルゴリズム設計: メタデータを用いて、どのように検索結果を抽出するかを決定します。
検索性能の評価
情報検索システムの性能は、以下の指標で評価されます。
適合率(Precision): 検索結果の中で、どれだけ正解のデータが含まれているかを示す指標です。
再現率(Recall): 検索対象のデータのうち、どれだけ正解のデータを検索できたかを示す指標です。
F値(F-measure): 適合率と再現率の調和
平均で、両方をバランス良く評価するための指標です。
スループット: 処理性能を示す指標です。
適合率と再現率はトレードオフの関係にあり、両方を高めることは難しいです。そのため、F値を用いてバランスの良い性能を評価することが一般的です。
情報検索技術の分類
情報検索技術は、以下の観点で分類できます。
検索対象データの抽象度
直接検索: データそのものを直接処理する検索方法。類似音程の音楽検索などが例。
全文検索: 文書データの全文を対象に検索する方法。NamazuやApache Solrなどが用いられる。
間接検索:
メタデータを基に検索する方法。
検索入力の種類
単語(キーワード): 最も単純な検索方法。インクリメンタルサーチも利用される。
検索言語: システム特有の言語を用いた検索方法。ブール演算などを利用。
直接入力: 画像やハミングなど、データを直接入力する方法。パターン認識技術と関連。
自然文: 自然な文章で検索する方法。
文書: 文書自体を入力として検索する方法。Query by Exampleとも呼ばれる。
パターンマッチング: 入力された表現をそのまま含む
文書を検索する。
ブール論理: パターンマッチングに論理演算を組み合わせた検索方法。
ベクトル空間モデル: キーワードなどを
ベクトル空間で表現し、ベクトル間の類似度を計算する。
潜在的意味索引付け(LSI): ベクトル空間モデルを応用し、同義語や内容的な偏りを考慮した検索を行う。
関連項目
文書検索
全文検索
概念検索
データマイニング
エンタープライズサーチ
データ・クラスタリング
情報フィルタリング
TREC
地理[[情報システム]]
CBIR(Content-Based Image Retrieval)
音声検索
メタデータ
フォークソノミー
二項分類
ナレッジマネジメント
適合性 (情報検索)
参考文献
徳永健伸著 辻井潤一編 『
情報検索と言語処理 言語と計算』 東京大学出版会、1999年。
北研二、津田和彦、獅々堀正幹著 『情報検索アルゴリズム』 共立出版、2002年。
Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval, Addison Wesley, 1999.
脚注
外部リンク
情報検索コース - 研究人材のためのe-learning(科学技術振興機構)
『
情報検索』 -
コトバンク
Namazu
Hyper Estraier
Senna
ht://Dig
汎用連想計算エンジン(GETA)
Apache Solr
主な学術団体
情報処理学会 情報基礎とアクセス技術(IFAT)研究会
情報処理学会
データベースシステム(DBS)研究会
電子情報通信学会 データ工学研究会
ACM SIGIR: Special Interest Group on Information Retrieval
ACM SIGMM: Special Interest Group on MultiMedia
ACM SIGIR: Special Interest Group on Management of Data
その他
NTCIR 情報検索システム評価用テストコレクション構築プロジェクト
Text Retrieval Conference (TREC)