コーパス言語学(
英語名:corpus linguistics)は、
言語学における重要な一分野であり、特に計算
言語学と密接な関連性を持っています。
概要
この
学問の中心となるのは、『
コーパス』と呼ばれる
言語資料です。『
コーパス』とは、実際に人々が話したり書いたりして使用した膨大な
言語の記録を、体系的に収集・整理したデータ集を指します。近年のコンピュータ技術の発展により、特にコンピュータで効率的に分析可能な電子化された大規模
コーパスが、研究の基盤として不可欠となっています。
コーパス言語学の根本的な目的は、このような大規模な
言語データを用いて、現実世界で
言語がどのように使われているのか、その実際の仕組みや構造、そして運用上の規則性を詳細に探求することにあります。例えば、ある特定の単語がどのような文脈や単語と頻繁に組み合わせて使われるか(いわゆるコロケーション)、特定の文法構造がどのようなコミュニケーション状況で選択されやすいか、といった具体的な使用パターンを統計的あるいは定性的な手法で明らかにします。
このアプローチは、普遍的な人間の
言語能力や、頭の中で生成される文の構造を探求する
生成文法のような研究とは対照的です。
コーパス言語学は、規範的な文法規則や理想化された
言語能力よりも、実際のコミュニケーションにおける
言語の使用実態(
言語運用)に光を当て、データに基づいた記述と分析を重視します。研究手法としては、まず特定の
言語現象に関する疑問や仮説(リサーチクエスチョン)を設定することから始まります。次に、この仮説に基づいて、大規模な
コーパスデータの中から関連する事例を網羅的に収集し、様々な角度から分析・記述を行います。そして、分析結果をもとに最初の仮説を検証し、そこから得られた新たな知見や疑問点から、さらに深い理解を目指して次のリサーチクエスチョンを設定するという、継続的な検証と仮説構築を繰り返す循環的なプロセスが一般的です。
コーパスを用いた詳細かつ網羅的な分析は、
言語に関する従来の認識を覆すような新たな知見をもたらしました。その最も重要な発見の一つに、私たちが日常的に使う
言語表現の多くが、単語を一つずつ独立して分析的に組み立てているというよりは、あらかじめ決まった単語の組み合わせや慣用的な表現(決まり文句やフレーズ)として使用されている頻度が高い、という事実があります。
歴史的背景と日本における発展
コーパス言語学という研究手法が学術的に確立し、広く認識されるようになった過程は、地域によって若干異なります。例えば日本では、日本語研究(
日本語学)の分野において、『
コーパス』という特定の呼称が学術界全体で一般的になる以前から、コンピュータ技術を活用した大量の
言語資料分析や計量的なアプローチが比較的早い段階から実施され、研究成果を上げていました。
一方、ヨーロッパを中心とした
英語などヨーロッパ系の
言語研究分野では、『
コーパス言語学(corpus linguistics)』という名称とともに、この研究手法論が明確な分野として認識されるようになったのは、やや遅れて
1980年代後半になってからのことです。
関連学会
日本国内には、
コーパス言語学やそれに近い研究分野を推進する学術組織がいくつか存在します。古くは1956年に設立され、
言語の計量的な分析手法を探求する計量国語学会があります。また、より直接的に大規模
コーパスを用いた
英語研究を専門とする学会としては、1993年に設立された
英語コーパス学会などがあり、これらの学術団体が国内の研究交流や発展に貢献しています。