WordNet(ワードネット)とは
WordNetは、
英語の概念辞書であり、単語を意味に基づいて分類したものです。単語は「synset」と呼ばれる同義語のグループにまとめられ、それぞれのsynsetには簡単な定義や他のsynsetとの関係性が記述されています。このデータベースは、心理学的な知見に基づいて設計されており、辞書と
シソーラスを組み合わせたような使いやすさを目指しています。
WordNetの目的
主な目的は、以下の2点です。
1. 直感的に利用できる辞書と
シソーラスを組み合わせた成果物を提供すること。
2. 自動文書解析や人工知能のアプリケーション開発を支援すること。
データベースは
BSDライセンスで公開されており、誰でも自由にダウンロードして利用できます。オンラインでの参照も可能です。
開発と運営
WordNetは
プリンストン大学の
認知科学研究所で、
心理学者ジョージ・ミラー
教授の主導のもとで運営されています。
1985年に開発が開始され、主に
機械翻訳に取り組むアメリカの政府機関から資金援助を受けています。
データベースの内容
2005年時点で、約11万5000のsynsetに分類された約15万語が収録されています。全体では20万3000の単語と意味の組み合わせがあり、データベースのサイズは約12
メガバイトです。
WordNetでは、名詞、動詞、形容詞、副詞を文法的な扱いの違いによって区別して収録しています。synsetは、同義語やコロケーション(
熟語や
連語など、意味をなす単語のまとまり)をグループ化しています。
意味が異なる語句は別のsynsetに分類されます。synsetの意味は、注釈として以下のように記述されます。
例:
good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")
意味的な関係
ほとんどのsynsetは、他のsynsetとの意味的な関係が番号で示されています。関係の種類は品詞によって異なり、以下のようになっています。
名詞
上位語 (hypernym): XがYの一種である場合、YはXの上位語(例:「犬」は「動物」の上位語)。
下位語 (hyponym): YがXの一種である場合、YはXの下位語(例:「プードル」は「犬」の下位語)。
同族語 (coordinate term): XとYの上位語が同じ場合、YはXの同族語(例:「猫」は「犬」の同族語)。
全体語 (holonym): XがYの一部である場合、YはXの全体語(例:「手」は「腕」の全体語)。
部分語 (meronym): YがXの一部である場合、YはXの部分語(例:「指」は「手」の部分語)。
動詞
上位語 (hypernym): 行動Xが行動Yの一種である場合、YはXの上位語(例:「移動」は「旅行」の上位語)。
トロポニム (troponym): 行動YがXを行う際の様態である場合、YはXのトロポニム(例:「ささやく」は「話す」のトロポニム)。
含意 (entailment): Xしている場合、必然的にYしているならYはXに含意される(例:「いびきをかく」は「眠る」ことを含意)。
同族語 (coordinate terms): XとYの上位語が同じ場合、YはXの同族語。
形容詞
関連する名詞
動詞の分詞
副詞
原形の形容詞
synset内の語句は同義語であるため、意味的な関係はsynset全体に適用されます。ただし、個々の語句が他の語句と反意語や派生語の関係を持つこともあります。
多義性と頻度
WordNetには、語句の多義性(polysemy count:単語が属するsynsetの数)の情報も含まれています。ある単語が複数のsynsetに属している場合、それぞれの意味の頻度を示す頻度点 (frequency score) が付与されています。
形態素解析
単語から語幹(root form)や原型(lemma)を推定するための形態素解析ツールもデータベースと一緒に配布されています。データベースには、屈折形を除く語幹のみが格納されています。
知識構造
名詞と動詞は、上位・下位の関係(IS A関係)によって定義される階層構造にまとめられています。同じ階層にある単語は同義語の関係にあります。例えば、「dog」の第一義は以下のような上位語階層を持ちます。
dog, domestic dog, Canis familiaris
=> canine, canid
=> carnivore
=> placental, placental mammal, eutherian, eutherian mammal
=> mammal
=> vertebrate, craniate
=> chordate
=> animal, animate being, beast, brute, creature, fauna
=> ...
階層の頂点では、名詞は25の基礎グループ、動詞は15の基礎グループにまとめられています。形容詞は、反対の意味を極として、同義語がその周りを囲む構造になっています。名詞のネットワーク構造は最も深く、動詞は複雑な構造を持っています。形容詞は明確に区別されたグループに組織されており、副詞は由来する形容詞に従って定義されています。
心理学的な正当性
WordNetは、人間が言語を処理する方法に関する心理学的な知見と一致するように設計されています。例えば、失語症患者が物の名前を思い出す際に選択的な困難を示すことから、品詞を明確な階層構造に分類することの妥当性が裏付けられています。また、人間が概念の属性を認識する速さが、その特徴を定義する階層構造の深さに依存することも実験で示されており、人間の意味情報の記憶方法がWordNetと類似していることが示唆されています。
制限事項
WordNetには、語源に関する情報、発音、不規則動詞についての詳しい説明は含まれていません。辞書編集上の情報は編集用ファイルで管理され、ツールを使ってデータベースが生成されています。データベースの変更は簡単ではありません。
関連プロジェクト
EuroWordNet: ヨーロッパの言語のWordNetを開発。
Global Wordnet: 全ての言語のWordNetを統合するプロジェクト。
日本語WordNet:
英語WordNetと同じライセンスで公開された日本語版WordNet。
eXtended WordNet: WordNetの注釈を解析し、知識処理システムでの利用を目指すプロジェクト。
GCIDEプロジェクト:
パブリックドメインの辞典とWordNetを組み合わせた辞書を作成。
オントロジーとしてのWordNet
名詞のsynset間の上位語・下位語の関係は、概念のカテゴリ間の関係として解釈できます。つまり、WordNetは
情報科学における語彙のオントロジーとして利用可能です。ただし、意味的な不整合や冗長性があるため、利用前に修正が必要な場合があります。また、WordNetをオントロジーとして利用するためには、意味付けの関係をsubtypeOfとinstanceOfに区別し、カテゴリに一意の識別子を関連付ける必要があります。
WordNetは他のオントロジーとの写像にも広く利用されており、最上位のカテゴリが利用されることが多いですが、SUMOやOpenCycなど、より詳細な写像も存在します。
WordNetを基盤としたその他のプロジェクト
多くのプロジェクトが、WordNetを発想の種として、意味的な不整合を修正したり、大幅に書き換えたりして利用しています。例えば、OntoCleanに基づく上位オントロジーの再構築や、SENSUSオントロジーの下位分類の構築などに用いられています。
FrameNetは、WordNetと近いプロジェクトで、文に追加された意味属性の注釈に基づいて語彙フレームを作成しています。
まとめ
WordNetは、
英語の概念を構造的に捉え、コンピュータによる処理を可能にするための重要なリソースです。心理学的な知見に基づいて構築されており、自然言語処理や人工知能分野で広く活用されています。そのオープンな性質から、様々な関連プロジェクトが生まれ、その影響力はさらに広がっています。