Google Books Ngram Viewerは、
Googleが開発したオンライン
検索エンジンであり、大規模なテキスト
コーパスから特定の単語やフレーズの出現頻度を時系列でグラフ化するツールです。このツールは、
人文科学の研究分野だけでなく、一般のユーザーにも広く利用されています。
概要
Ngram Viewerは、
Google Booksに収録されている書籍のテキストデータをもとに、
1500年から
2019年までの期間における単語や
句の出現頻度を可視化します。この際、nグラムという単位でテキストを解析し、指定された文字列がテキスト内でどの程度頻繁に出現するかを計算します。対象となるテキスト
コーパスは、
英語、中国語(
簡体字)、
フランス語、ドイツ語、
ヘブライ語、
イタリア語、
ロシア語、
スペイン語など多岐にわたる言語に対応しています。また、アメリカ
英語、イギリス
英語、
英語フィクションなど、特定の分野に特化した
コーパスも利用可能です。
Ngram Viewerは、スペルミスを含む文字列や解釈不能な文字列でも検索できる点が特徴です。検索されたnグラムは、選択された
コーパス内のテキストと照合され、40以上の文献で一致が見つかった場合、その出現頻度がグラフとして表示されます。さらに、
品詞を指定したり、ワイルドカードを使用したりする高度な検索機能も備えているため、研究者がより詳細な分析を行う際に役立ちます。
歴史
このプログラムは、
ハーバード大学の研究者であるジャン=バティスタ・ミシェルとエレズ・リーバーマン・エイデンによって開発され、
2010年12月16日に一般公開されました。同時に、サイエンス誌には本プログラムに関する論文が掲載され、その共著者である
スティーブン・ピンカーは、Ngram Viewerの公開以前は、言語変化の数値化がデータ不足により困難であったと述べています。Ngram Viewerのデータベースは、一般に入手可能な520万の文献から集められた約5000億語のデータで構成されており、
人文科学領域における量的研究の可能性を大きく広げました。
開発当初は学者による使用を想定していましたが、実際には誰でも単語や
句の使用率の変化をグラフ化し、参照できるツールとして広く利用されています。開発者の一人であるリーバーマンは、「子供でも歴史的な文化的傾向を把握できるようにすること」を目標に開発したと述べています。このデータ分析手法は、サイエンス誌の論文内で「カルチュロミクス」と名付けられています。
使用法
Ngram Viewerの基本的な使用法は、検索したい文字列をカンマで区切って入力することです。入力された各文字列はn-gramとしてデータベース内で検索され、それぞれの出現頻度がグラフで表示されます。例えば、"nursery school"という文字列は2-gram(バイグラム)として扱われます。ただし、グラフが適切に生成されるためには、40以上の文献で検索文字列が一致する必要があります。
高度な検索機能
Ngram Viewerには、以下のような高度な検索機能が搭載されています。
ワイルドカード検索: 語の代わりに `` を使用すると、正規化された文字列に一致する結果を上位10件まで取得できます。例:`University of `
屈折検索: 特定のnグラムに `_INF` の
接尾辞を追加すると、単語の屈折形(活用形)を考慮した検索ができます。例:`book_INF`
大小文字非区分検索: チェックボックスをオンにすることで、大小文字を区別しない検索が可能です。
品詞タグ: `_NOUN` や `_VERB` などの
接尾辞を使用すると、nグラムの
品詞を指定できます。例:`tackle_NOUN`, `tackle_VERB`
Nグラム合成: `+`, `-`, ``, `/`, `:` の演算子を使用して、複数のnグラムを組み合わせて検索できます。例:`game+sport+play`
制限と注意点
Ngram Viewerのデータセットには、いくつかの制限と注意点があります。
OCRの問題: 光学文字認識(OCR)の精度には限界があり、特に古い文献では文字の誤認識が発生しやすいです。
19世紀以前のテキストでは、`s` と `f` の混同が頻繁に起こり、データの偏りを引き起こす可能性があります。
データの不正確さ: データには、日付や分類が誤っているテキストが含まれている場合があります。また、特定の分野の文献が過剰に含まれているなど、データの偏りが存在するため、結果を解釈する際には注意が必要です。
*
メタデータの欠如: データセットには、
著作権上の理由から出版日、著者、長さ、ジャンルなどの
メタデータが含まれていないため、一般的な言語変化や文化的変化が必ずしも反映されない可能性があります。
これらの制限を理解した上で、Ngram Viewerの結果を言語研究や理論検証に活用することが重要です。研究者向けに、Ngram Viewerのデータを使用するためのガイドラインも提案されています。
まとめ
Google Books Ngram Viewerは、大規模なテキストデータに基づいた強力な検索ツールであり、言語研究だけでなく、歴史、文化、社会などの分野においても有用な知見を提供します。しかし、データセットの制限と注意点を理解した上で、適切に活用することが求められます。