BabelNet

BabelNet: 多言語に対応した語彙意味の知識グラフ



BabelNetは、多様な言語における語彙意味を体系的に整理した知識グラフです。この知識グラフは、概念や固有名詞に関する百科事典的な情報を収集し、多くの言語をサポートしています。BabelNetは実際、異なる言語間の同義語の関係をオントロジーという構造で表現しており、言語の壁を越えた理解を促進する役割を果たしています。

このプロジェクトは、Wikipediaと最も広く使われる計算機語彙リソースであるWordNetを自動的に結びつけて作成されています。さらに、語彙が不足している言語には、統計的機械翻訳を用いて語彙の充実が図られており、極力多くの言語を網羅しています。加えて、自由利用が可能なWordNetやOmegaWiki、英語版Wiktionary、Wikidata、FrameNet、VerbNetといった、さまざまなリソースともリンクされています。

Babelシンセットと語義の整理



BabelNetの特徴的な点は、WordNetのアプローチを踏襲しながら、様々な言語の単語を「Babelシンセット」という同義語の集合にまとめているところです。各Babelシンセットには、WordNetとWikipediaから収集された多言語の短い定義が載せられ、視覚的にも多様な情報を提供します。

現在のBabelNetは、ロベルト・ナヴィリが率いるローマ・ラ・サピエンツァ大学自然言語処理グループによって開発され、その運営はナヴィリが設立したBabelscape社によって行われています。これにより、継続的なデータの更新とリソースの統合が進化しています。

統計データとバージョン履歴



2025年4月現在のBabelNetは、バージョン5.3において600の言語をカバーし、約2300万のシンセットに加え、17億の語義が登録されています。一つのBabelシンセットには、平均して各言語ごとに2つの同義語が含まれています。このデータベースでは、WordNet由来のあらゆる語義の関係に加え、Wikipediaから取得した関連性も考慮されています。

さらに、バージョン5.3では約6100万枚の画像がBabelシンセットに関連付けられており、RDF形式でのLemonエンコーディングも利用可能です。267万件のシンセットには特定のドメインラベルが付与され、データアクセスも容易です。

BabelNetは2010年にバージョン1.0として最初に開発され、その後も新しい機能の追加や、外部のリソース統合の進展が続けられています。特に以下のような重要なバージョンアップが行われています。

  • - 2010年7月: バージョン1.0発表
  • - 2014年3月: バージョン2.0発表
  • - 2014年12月: バージョン3.0を一般公開
- 対応言語数:271、シンセット数:約1378万、語義数:約1.17億
  • - 2015年5月: META Prize受賞
  • - 2017年6月: Artificial Intelligence JournalのProminent Paper Award受賞
  • - 2018年2月: バージョン4.0公開(対応言語数284に拡張)
  • - 2021年2月: バージョン5.0公開(対応言語数500に拡張)
  • - 2022年7月: バージョン5.1公開
  • - 2022年11月: バージョン5.2公開(対応言語数520に増加)
  • - 2023年12月: バージョン5.3公開(対応言語数600に増加)

応用と連携リソース



BabelNetは多言語自然言語処理アプリケーションに広く利用されており、ローマ・ラ・サピエンツァ大学自然言語処理グループと連携することで多くのツールやデータセットが開発されています。これらには、以下のようなものがあります。

  • - VerbAtlas: 言語に依存しない動詞の役割リポジトリ
  • - InVeRo: ニューラルSemantic Role Labelingによる動詞・役割生産
  • - Train-O-Matic: 多言語の語義曖昧性解消のための自動生成手法
  • - Babelfy: 多言語のWSD(語義決定)とエンティティリンク

これらのツールやデータセットは、さまざまな言語における意味の解析や処理を行うための強力なリソースとして位置づけられています。BabelNetの重要性は、今後もますます高まっていくことでしょう。

公式ウェブサイト



BabelNetの詳細については、公式ウェブサイトをご覧ください。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。