コーパスとは
コーパス(英: corpus)は、
言語学や自然
言語処理の分野において重要な役割を果たすデータ集のことを指します。自然
言語の文章を集め、これに構造を与えて大規模に整備されたこのコーパスは、
言語研究の基盤として多くの分野で活用されています。具体的には、文中の品詞や統語構造といった
言語的情報が付与され、計算機による分析が可能となっています。
特に、コーパスという用語は「身体」を意味する
ラテン語の単語に由来し、その複数形は「コーポラ」です。近年では、
英語式の複数形「corpuses」も一般的に見かけるようになりました。
コーパスの作成
大規模なコーパスを作成するには、かなりのコストと
時間がかかります。これは、集める文書に関する
著作権などの法的課題が影響しているためです。しかし、
コンピュータ技術の進展により、従来よりもデータ作成が格段に容易になり、多様な形での構造化が可能になっています。例えば、日本では
国立国語研究所が「KOTONOHA計画」を通じて、一億語の収録を目指しています。
一般利用と教育への影響
コーパスを一般に広く利用する観点からは、
三省堂が提供するウィズダム英和・和英辞典の用例を「用例コーパス」として無料公開していたことが挙げられます。また、
英語学者の投野由紀夫氏は
2003年にNHK教育テレビで放送された『100語でスタート!英会話』を通じて、コーパスを教材として活用し、一般層にコーパスの存在を広める役割を果たしました。その後、
2009年には『コーパス100!で英会話』という新たなシリーズが放送され、さらなる利用が進みました。
生コーパスとタグ付きコーパス
コーパスにはいくつかの種類があります。例えば、人手によって整理されたものと異なり、単に文書を無秩序に集めたものを「生コーパス(英: raw corpus)」と呼びます。また、Brownコーパスのようにバランスよくジャンルの異なるテキストが収集されたものは「均衡コーパス(英: balanced corpus)」とされています。翻訳に関する二つの文書のペアを集めたコーパスは「対訳コーパス(英: bilingual corpus)」または「パラレルコーパス(英: parallel corpus)」と呼ばれ、さらに特定のトピックに関連する対訳は「比較可能コーパス(英: comparable corpus)」と名付けられています。
一方で、
言語的な注釈が付与されたコーパスは「注釈付与コーパス(英: annotated corpus)」もしくは「タグ付きコーパス(英: tagged corpus)」として知られ、特定の
言語現象を分析するための重要なリソースとなっています。
結論
コーパスは、自然
言語処理や
言語教育などの様々な分野での研究や実践に欠かせない存在です。その利活用により、
言語理解が深まり、意思疎通の質が向上すると期待されます。日々進化し続けるデータ技術を通じて、今後もコーパスの活用が拡大していくことでしょう。