固有表現抽出とは？意味をやさしく解説

固有表現抽出とは

固有表現抽出（Named Entity Recognition, NER）は、自然言語処理における重要な技術の一つです。テキストデータの中から、特定の意味を持つ語句（固有表現）を抽出し、あらかじめ定義されたカテゴリ（人名、組織名、地名、日付、時間、金額など）に分類する処理を指します。

固有表現抽出の目的

現実世界のテキストデータ、特に新聞記事などには大量の固有表現が含まれています。これらの固有表現は、従来の形態素解析では未知語として扱われ、解析の精度を低下させる原因となります。そのため、固有表現を辞書に登録する必要があるのですが、その数は膨大であり、人手による登録は非現実的です。

この問題を解決するために、コンピュータを用いて大量のテキストデータから自動的に固有表現を抽出する技術が開発されました。これにより、効率的な情報抽出とテキスト解析の精度向上が可能になりました。

固有表現抽出の歴史

固有表現抽出という概念は、1990年頃にアメリカ国防高等研究計画局（DARPA）が主催した評価型プロジェクトであるMUC（Message Understanding Conference）で提唱されました。日本では、情報抽出・情報検索の評価型ワークショップであるIREX（Information Retrieval and Extraction Exercise）で、情報抽出の共有タスクとして取り上げられました。

具体例

例えば、「太郎は5月18日の朝9時に花子に会いに行った」という文を例にすると、固有表現抽出によって以下のように分類できます。

`<PERSON>太郎</PERSON>は<DATE>5月18日</DATE>の<TIME>朝9時</TIME>に<PERSON>花子</PERSON>に会いに行った。`

ここで、`<PERSON>`は人名、`<DATE>`は日付、`<TIME>`は時間を表すタグです。このように、固有表現とそのカテゴリを明確にすることで、テキストデータの意味解析をより正確に行うことができます。

固有表現分類

固有表現には、人名、日付、組織名など、様々な種類があります。これらの分類を定義することは、固有表現抽出の重要なステップです。

MUCでは、組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額表現 (MONEY)、割合表現 (PERCENT) の7種類を定義しました。IREXでは、これに加えて固有物名 (ARTIFACT) を加えた全8種類の分類を採用しました。

これらの分類には曖昧性が残る場合もあるため、ニューヨーク大学の関根聡らは、MUC・IREXの分類を基に、より詳細な階層構造を持つ拡張固有表現階層（Extended Named Entity Hierarchy）を提唱しました。これにより、様々な粒度での分類が可能になり、より柔軟な情報抽出が実現しています。

入手可能な日本語の固有表現抽出エンジン

固有表現抽出は、多くの組織や企業で利用されています。以下に、いくつかの代表的なエンジンを紹介します。

商用システム

固有表現抽出API（gooラボ）：NTTレゾナントが提供するAPIです。

オープンソース

Apache OpenNLP：2018年7月に日本語対応がリリースされ、商用利用も可能です。
spaCy/GiNZA：オージス総研が解説記事を公開している、MITライセンスで利用可能なツールです。
CaboCha：LGPL/BSDライセンスで提供されており、訓練済みモデルは研究目的のみで利用可能です（毎日新聞データ使用許諾が必要）。

参考文献

Ralph Grishman and Beth Sundheim. Message understanding conference - 6: A brief history. In In Proceedings of COLING-96, 1996.
Satoshi Sekine and Hitoshi Isahara. IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine, Kiyoshi Sudo, and Chikashi Nobata. Extended named entity hierarchy. 2002.

固有表現抽出