固有表現抽出

固有表現抽出とは



固有表現抽出(Named Entity Recognition, NER)は、自然言語処理における重要な技術の一つです。テキストデータの中から、特定の意味を持つ語句(固有表現)を抽出し、あらかじめ定義されたカテゴリ(人名、組織名、地名日付時間、金額など)に分類する処理を指します。

固有表現抽出の目的



現実世界のテキストデータ、特に新聞記事などには大量の固有表現が含まれています。これらの固有表現は、従来の形態素解析では未知語として扱われ、解析の精度を低下させる原因となります。そのため、固有表現を辞書に登録する必要があるのですが、その数は膨大であり、人手による登録は非現実的です。

この問題を解決するために、コンピュータを用いて大量のテキストデータから自動的に固有表現を抽出する技術が開発されました。これにより、効率的な情報抽出とテキスト解析の精度向上が可能になりました。

固有表現抽出の歴史



固有表現抽出という概念は、1990年頃にアメリカ国防高等研究計画局(DARPA)が主催した評価型プロジェクトであるMUC(Message Understanding Conference)で提唱されました。日本では、情報抽出情報検索の評価型ワークショップであるIREX(Information Retrieval and Extraction Exercise)で、情報抽出の共有タスクとして取り上げられました。

具体例



例えば、「太郎は5月18日の朝9時に花子に会いに行った」という文を例にすると、固有表現抽出によって以下のように分類できます。

`<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>の<TIME>朝9時</TIME>に<PERSON>花子</PERSON>に会いに行った。`

ここで、`<PERSON>`は人名、`<DATE>`は日付、`<TIME>`は時間を表すタグです。このように、固有表現とそのカテゴリを明確にすることで、テキストデータの意味解析をより正確に行うことができます。

固有表現分類



固有表現には、人名日付、組織名など、様々な種類があります。これらの分類を定義することは、固有表現抽出の重要なステップです。

MUCでは、組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT) の7種類を定義しました。IREXでは、これに加えて固有物名 (ARTIFACT) を加えた全8種類の分類を採用しました。

これらの分類には曖昧性が残る場合もあるため、ニューヨーク大学の関根聡らは、MUC・IREXの分類を基に、より詳細な階層構造を持つ拡張固有表現階層(Extended Named Entity Hierarchy)を提唱しました。これにより、様々な粒度での分類が可能になり、より柔軟な情報抽出が実現しています。

入手可能な日本語の固有表現抽出エンジン



固有表現抽出は、多くの組織や企業で利用されています。以下に、いくつかの代表的なエンジンを紹介します。

商用システム

固有表現抽出API(gooラボ):NTTレゾナントが提供するAPIです。

オープンソース

Apache OpenNLP:2018年7月に日本語対応がリリースされ、商用利用も可能です。
spaCy/GiNZA:オージス総研が解説記事を公開している、MITライセンスで利用可能なツールです。
CaboCha:LGPL/BSDライセンスで提供されており、訓練済みモデルは研究目的のみで利用可能です(毎日新聞データ使用許諾が必要)。

参考文献


Ralph Grishman and Beth Sundheim. Message understanding conference - 6: A brief history. In In Proceedings of COLING-96, 1996.
Satoshi Sekine and Hitoshi Isahara. IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine, Kiyoshi Sudo, and Chikashi Nobata. Extended named entity hierarchy. 2002.

関連項目


統制語彙
エンティティ・リンキング
知識抽出
固有名詞
自然言語処理
* spaCy

固有表現抽出は、自然言語処理の分野において、情報の効率的な抽出と解析の精度向上に不可欠な技術です。この技術の発展は、テキストデータの活用範囲を広げ、より高度な情報処理を可能にすると期待されています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。