Lexical Markup Framework

LMF (Lexical Markup Framework) とは

LMF（Lexical Markup Framework）は、ISO/TC37によって規定された自然言語処理用の辞書や機械可読辞書を表現するための国際標準規格（ISO 24613:2008）です。この規格は、多言語コミュニケーションや文化の多様性を考慮した上で、言語資源に関する原則や方法論を標準化することを目的としています。

LMFの目的

LMFの主な目的は、語彙に関する言語資源（語彙資源）の作成と利用に関する共通モデルを提供することです。これにより、異なる語彙資源間でのデータ交換や、多数の電子的な資源のマージが容易になります。LMFは、単言語、二言語、多言語を問わず、また、語彙資源の規模や複雑さ、文字言語・音声言語の区別に関わらず適用可能です。形態論的情報や意味論的情報からコンピュータによる翻訳支援まで、幅広い範囲をカバーし、対象言語も西欧系の言語に限らず、全ての自然言語に対応しています。さらに、特定の自然言語処理アプリケーションに限定されることもありません。LMFを用いることで、WordNet、EDR、PAROLEといった既存の多くの語彙資源や辞書を表現できます。

LMFの歴史

語彙資源や辞書の標準化は、GENELEX、EDR、EAGLES、MULTEXT、PAROLE、SIMPLE、ISLEといった一連のプロジェクトで研究開発が進められてきました。これらの成果を踏まえ、ISO/TC37の各国代表が自然言語処理用の辞書に関する標準を策定することになりました。LMFの制定作業は、2003年夏に米国代表が提案した内容を基に開始され、同年秋にはフランス代表からデータモデルに関する技術的な提案がありました。これらの実績に基づいて、2004年前半にISO/TC37委員会が標準化プロジェクトを立ち上げ、Nicoletta Calzolari（CNR-ILC、イタリア）を議長、Gil Francopoulo（Tagmatica、フランス）とMonte George（ANSI、米国）をエディタに任命しました。

標準規格開発の初期段階では、既存の辞書の様々な特徴を調査し、全体的な枠組みを設計しました。また、これらの辞書の各要素を記述するために必要な用語体系も定義されました。次の段階では、辞書の詳細を最もよく表現する包括的なモデルが策定されました。この過程では、約60人の専門家がLMFの要求条件の策定に貢献し、自然言語処理用の多様な辞書タイプをカバーしました。エディタは専門家グループと密接に協力し、LMF設計のコンセンサスを得ることに成功しました。特に、従来困難とされてきた様々な言語の形態論的な問題を扱うための枠組み開発に注力しました。最終的なUMLモデルで表現された仕様を策定するまでに5年を要し、その間に多くの会議やメール交換が行われました。その結果、LMFは自然言語処理用の辞書分野における最新技術を集結させたものとなりました。

標準化の状況

LMFの仕様は、ISO国際標準24613として2008年11月17日に正式に公開されました。

ISO/TC37による国際標準ファミリーの一部としてのLMF

ISO/TC37による国際標準規格は、上位レベルの仕様として策定されており、LMF（ISO 24613）以外にも、単語分割（ISO 24614）、言語的注釈（ISO 24611, ISO 24612, ISO 24615, ISO 24617-1）、素性構造（ISO 24610）、マルチメディアコンテナ（ISO 24616）などの規格が含まれます。これらの規格は、データカテゴリ（ISO 12620）、言語名コード（ISO 639）、文字体系（ISO 15924）、国名コード（ISO 3166）、ユニコード（ISO 10646）といった下位レベルの標準規格を利用しています。この2レベル構成によって、一貫性のある国際標準ファミリーが形成されており、下位レベルの仕様は標準化された定数をメタデータとして提供し、上位レベルの仕様は構造的な要素を提供し、下位レベルの標準で規定された定数を用いて詳細化されます。

LMFにおける重要な標準

LMFのような上位レベルの標準における構造的な要素を記述するのに必要な言語学的定数は、LMF自身で定義するのではなく、データカテゴリレジストリ（DCR）に登録されているものを使用します。DCRは、ISO/IEC 11179-3:2003に準拠したグローバルリソースとして運用されています。

LMFの仕様は、Object Management Group (OMG) によって定義されたUnified Modeling Language (UML) のモデリング原則に従っています。LMFの構造はUMLクラス図によって規定され、具体的な例はUMLインスタンス図（オブジェクト図）で示されます。LMFの仕様書の付録には、XMLでの表現形式であるDTDが掲載されています。

モデルの構造

LMFの構成要素は、主に以下の2つからなります。

コアパッケージ: 辞書エントリが持つ基本的な情報階層を記述するための基本的な構造を規定します。
コアパッケージに対する複数の拡張部: 特定のタイプの語彙資源に必要な、コアパッケージ要素に対する追加要素を規定します。

LMFの仕様には、形態論的情報、機械可読辞書（MRD）に関する拡張部が明示されています。また、自然言語処理用の辞書における統語論的情報、意味論、多言語表記、形態論的パターン、複合語表現パターンを表現するための拡張部も用意されています。さらに、制約表現に関する拡張部も共通的に用いられます。

具体例

例えば、"clergyman"という見出し語に関連する辞書エントリをUMLオブジェクト図で示すと、この見出し語は "clergyman" と "clergymen" の2つの屈折形を持ちます。この語彙資源が対象とする言語名は、クラスLexiconのインスタンスにあるlanguage属性の値（eng）で示されます。この属性値は、ISO 639-3で規定されています。

Lexical Resource、Global Information、Lexicon、Lexical Entry、Lemma、Word Formといった要素は辞書の構造を規定し、LMF文書内部で定義されます。一方、languageCoding、language、partOfSpeech、commonNoun、writtenForm、Grammatical number、singular、pluralなどは、データカテゴリレジストリで規定されたデータカテゴリです。これらのデータカテゴリを用いて記述を詳細化します。ISO 639-3、"clergyman"、"clergymen"といった属性値は単純な文字列であり、"eng"はISO 639-3で規定された言語名リストに含まれています。

上記の内容は、XMLで表現することも可能です。その際には、dtdVersionやfeatのような付加情報も示すことができます。

この例は非常に単純ですが、LMFはより複雑な言語学的記述を表現することが可能です。ただし、それに伴いXMLの表現も複雑になります。