日本語
コーパスとは、日本語の文章を集めたデータベースであり、主に
言語学や
自然言語処理の分野において研究や開発に広く利用されています。この
コーパスは、多様な日本語の表現を収集し、そのデータを用いて
言語の構造や使用される文脈を分析するための重要な資源となっています。
歴史的背景
日本語
コーパスの発展は、
1948年に創設された
国立国語研究所の活動に始まります。当初は用例を収集するための情報カードを使用した語彙調査が行われており、これらの用例は電算化以前のデータとして位置づけられることもあります。
1960年代後半から
1970年代にかけては、電子化された日本語の資料を用いた量的研究が行われるようになりましたが、これらの
コーパスは外部には公開されず、学界への影響は限られていました。
1990年代に入り、
パーソナルコンピュータの普及と
電子出版技術の進展に伴い、個人研究者による日本語の量的な研究が活発化しました。1997年には京都大学が発表した「京都大学テキスト
コーパス」が重要な一歩となり、これは『
毎日新聞』の過去のテキストデータに形態素及び構文情報を付与したもので、日本語研究において初めて「
コーパス」の名を被ったデータセットとされています。しかし、この
コーパスは実際の利用には新聞記事の購入が必要で、主に
自然言語処理の文脈で使われていました。人文系の研究者にとっては、
コーパスの利用が限られ、『新潮文庫の100冊』が代わりに用いられることがありました。
1999年から
2003年にかけて、
通信総合研究所、
東京工業大学、
国立国語研究所によって開発された「日本語話し言葉
コーパス」が
2004年に公開され、さらには
2005年には
国立国語研究所による「太陽
コーパス」が登場しました。これらの開発を契機に、
国立国語研究所は明治期から現代に至る日本語の総合的な
コーパスを築く「KOTONOHA計画」を立案し、実施しました。この計画の中で、
2006年からは1億語規模の均衡
コーパスの構築が進められ、最終的に2011年に「現代日本語書き言葉均衡
コーパス(BCCWJ)」が完成し、一般に公開されました。
BCCWJの公開は、
日本語学界において非常に大きな影響を及ぼしました。この
コーパスの存在により、特に
日本語学や
日本語教育において
コーパスを用いた研究が急増しました。これにより、
言語の使われる実際のデータに基づく分析が可能となり、より実証的な日本語研究が進展しました。
結論
日本語
コーパスの発展は、
言語学及び
自然言語処理の分野において欠かせない進展を示しています。今後も
コーパスは、より多くの研究において中心的な役割を果たすことでしょう。