Universal Dependencies(UD)について
Universal Dependencies(通称:UD)は、世界中の様々な言語に対応したツリーバンクを構築する国際的な共同プロジェクトです。このプロジェクトでは、自由に利用できるツリーバンクを作成し、
自然言語処理(NLP)の分野における自動テキスト処理や
言語類型論の観点から、自然言語の構文や文法に関する研究に広く応用されています。UDの主な目標は、異なる言語間でアノテーションの一貫性を確立しつつ必要に応じて言語固有の拡張を認めることです。
UDのアノテーション体系は、Stanford Dependencies、Googleの普遍的品詞タグ、およびInterset interlinguaのための形態統語タグセットに由来しています。UDにおいては、句構造木ではなく依存構造木を用いて文の解析を行います。2022年1月時点で、UDは100以上の言語に対し200以上のツリーバンクを提供しています。
依存構造におけるアノテーション
UDのアノテーション体系は、
依存文法に基づいて文の統語解析を行います。各依存関係は、依存辺にラベルを付与することでその統語機能が特定され、具体的な構造解析が生成されます。
例えば、「she」「him」「a note」が動詞「left」に依存している場合、代名詞「she」は名詞主語(nsubj)、代名詞「him」は間接目的語(iobj)、名詞句「a note」は直接目的語(obj)として特定されます。このように、文中の言葉たちがどのように結びついているのかを明確に示します。
別の例では、「it」が主語(nsubj)、「is」がコピュラ(cop)、さらには「for」が格標識(case)として認識され、これらの要素が代名詞「her」に依存していることが示されます。また、「there」が虚辞(expl)として、さらに「food」が名詞主語(nsubj)、「kitchen」が斜格目的語(obl)、「in」が格標識(case)に特定される解析も行われます。この際、コピュラである「is」は文のルート要素として位置づけられており、前述の例とは異なる扱いを受けています。
これらの例が示しているように、UDのアノテーションは、異なる言語間での共通の分析手法を提供し、構造的な平行性を促進するための重要な役割を果たしています。すべての言語には普遍的に適用される品詞タグセットが使用されますが、各言語が全てのタグを必ずしも使用する必要はありません。単語に関するさらなる情報は、任意の形態統語素性セットを介して追加することが可能です。
機能語の取り扱い
UDのアノテーション体系には、特に機能語に関する議論があります。UDでは、機能語が内容語に従属する方針が採られており、これは伝統的な
依存文法の研究と相反する立場をとっています。具体的には、ある文の構造解析が異なる方式で生成された場合、機能の観点から異なる解釈を伴うことになります。
例えば、UDが解析した場合、助動詞「will」が内容動詞「say」に従属し、前置詞「to」が代名詞「you」に、従属接続詞「that」が内容動詞「likes」に、不定詞標識「to」が内容動詞「swim」に従属するという構造を示します。一方、伝統的な
依存文法では、内容動詞「say」が助動詞「will」に、代名詞「you」が前置詞「to」に、内容動詞「likes」が従属接続詞「that」に、内容動詞「swim」が不定詞標識「to」にそれぞれ従属するといった解析が行われます。
このように、UDは言語間での共通の理解や分析を進めるための重要な枠組みであり、日々進化し続けています。UDの研究は、言語に対する理解を深め、
自然言語処理技術を進展させるために欠かせないものといえるでしょう。