固有表現抽出とは
固有表現抽出(Named Entity Recognition, NER)は、
自然言語処理における重要な技術の一つです。テキストデータの中から、特定の意味を持つ語句(固有表現)を抽出し、あらかじめ定義されたカテゴリ(
人名、組織名、
地名、
日付、
時間、金額など)に分類する処理を指します。
固有表現抽出の目的
現実世界のテキストデータ、特に新聞記事などには大量の固有表現が含まれています。これらの固有表現は、従来の
形態素解析では未知語として扱われ、解析の精度を低下させる原因となります。そのため、固有表現を辞書に登録する必要があるのですが、その数は膨大であり、人手による登録は非現実的です。
この問題を解決するために、コンピュータを用いて大量のテキストデータから自動的に固有表現を抽出する技術が開発されました。これにより、効率的な
情報抽出とテキスト解析の精度向上が可能になりました。
固有表現抽出の歴史
固有表現抽出という概念は、
1990年頃にアメリカ
国防高等研究計画局(DARPA)が主催した評価型プロジェクトであるMUC(Message Understanding Conference)で提唱されました。日本では、
情報抽出・
情報検索の評価型ワークショップであるIREX(Information Retrieval and Extraction Exercise)で、
情報抽出の共有タスクとして取り上げられました。
具体例
例えば、「太郎は5月18日の朝9時に花子に会いに行った」という文を例にすると、固有表現抽出によって以下のように分類できます。
`<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>の<TIME>朝9時</TIME>に<PERSON>花子</PERSON>に会いに行った。`
ここで、`<PERSON>`は
人名、`<DATE>`は
日付、`<TIME>`は
時間を表すタグです。このように、固有表現とそのカテゴリを明確にすることで、テキストデータの意味解析をより正確に行うことができます。
固有表現分類
固有表現には、
人名、
日付、組織名など、様々な種類があります。これらの分類を定義することは、固有表現抽出の重要なステップです。
MUCでは、組織名 (ORGANIZATION)、
人名 (PERSON)、
地名 (LOCATION)、
日付表現 (DATE)、
時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT) の7種類を定義しました。IREXでは、これに加えて固有物名 (ARTIFACT) を加えた全8種類の分類を採用しました。
これらの分類には曖昧性が残る場合もあるため、
ニューヨーク大学の関根聡らは、MUC・IREXの分類を基に、より詳細な
階層構造を持つ拡張固有表現階層(Extended Named Entity Hierarchy)を提唱しました。これにより、様々な粒度での分類が可能になり、より柔軟な
情報抽出が実現しています。
入手可能な日本語の固有表現抽出エンジン
固有表現抽出は、多くの組織や企業で利用されています。以下に、いくつかの代表的なエンジンを紹介します。
商用システム
固有表現抽出API(gooラボ):NTTレゾナントが提供するAPIです。
オープンソース
Apache OpenNLP:2018年7月に日本語対応がリリースされ、商用利用も可能です。
spaCy/GiNZA:オージス総研が解説記事を公開している、MITライセンスで利用可能なツールです。
CaboCha:LGPL/BSDライセンスで提供されており、訓練済みモデルは研究目的のみで利用可能です(毎日新聞データ使用許諾が必要)。
参考文献
Ralph Grishman and Beth Sundheim. Message understanding conference - 6: A brief history. In In Proceedings of COLING-96, 1996.
Satoshi Sekine and Hitoshi Isahara. IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine, Kiyoshi Sudo, and Chikashi Nobata. Extended named entity hierarchy. 2002.
関連項目
統制語彙
エンティティ・リンキング
知識抽出
固有名詞学
自然言語処理
* spaCy
固有表現抽出は、
自然言語処理の分野において、情報の効率的な抽出と解析の精度向上に不可欠な技術です。この技術の発展は、テキストデータの活用範囲を広げ、より高度な情報処理を可能にすると期待されています。