コーパス言語学とは？意味をやさしく解説

コーパス言語学（英語名：corpus linguistics）は、言語学における重要な一分野であり、特に計算言語学と密接な関連性を持っています。

概要

この学問の中心となるのは、『コーパス』と呼ばれる言語資料です。『コーパス』とは、実際に人々が話したり書いたりして使用した膨大な言語の記録を、体系的に収集・整理したデータ集を指します。近年のコンピュータ技術の発展により、特にコンピュータで効率的に分析可能な電子化された大規模コーパスが、研究の基盤として不可欠となっています。

コーパス言語学の根本的な目的は、このような大規模な言語データを用いて、現実世界で言語がどのように使われているのか、その実際の仕組みや構造、そして運用上の規則性を詳細に探求することにあります。例えば、ある特定の単語がどのような文脈や単語と頻繁に組み合わせて使われるか（いわゆるコロケーション）、特定の文法構造がどのようなコミュニケーション状況で選択されやすいか、といった具体的な使用パターンを統計的あるいは定性的な手法で明らかにします。

このアプローチは、普遍的な人間の言語能力や、頭の中で生成される文の構造を探求する生成文法のような研究とは対照的です。コーパス言語学は、規範的な文法規則や理想化された言語能力よりも、実際のコミュニケーションにおける言語の使用実態（言語運用）に光を当て、データに基づいた記述と分析を重視します。研究手法としては、まず特定の言語現象に関する疑問や仮説（リサーチクエスチョン）を設定することから始まります。次に、この仮説に基づいて、大規模なコーパスデータの中から関連する事例を網羅的に収集し、様々な角度から分析・記述を行います。そして、分析結果をもとに最初の仮説を検証し、そこから得られた新たな知見や疑問点から、さらに深い理解を目指して次のリサーチクエスチョンを設定するという、継続的な検証と仮説構築を繰り返す循環的なプロセスが一般的です。

コーパスを用いた詳細かつ網羅的な分析は、言語に関する従来の認識を覆すような新たな知見をもたらしました。その最も重要な発見の一つに、私たちが日常的に使う言語表現の多くが、単語を一つずつ独立して分析的に組み立てているというよりは、あらかじめ決まった単語の組み合わせや慣用的な表現（決まり文句やフレーズ）として使用されている頻度が高い、という事実があります。

歴史的背景と日本における発展

コーパス言語学という研究手法が学術的に確立し、広く認識されるようになった過程は、地域によって若干異なります。例えば日本では、日本語研究（日本語学）の分野において、『コーパス』という特定の呼称が学術界全体で一般的になる以前から、コンピュータ技術を活用した大量の言語資料分析や計量的なアプローチが比較的早い段階から実施され、研究成果を上げていました。

一方、ヨーロッパを中心とした英語などヨーロッパ系の言語研究分野では、『コーパス言語学（corpus linguistics）』という名称とともに、この研究手法論が明確な分野として認識されるようになったのは、やや遅れて1980年代後半になってからのことです。

コーパス言語学

概要

歴史的背景と日本における発展

関連学会