ページランクとは
ページランク(PageRank)は、
ウェブページの重要度を測るための
アルゴリズムであり、
検索エンジンであるGoogleの中核技術として利用されています。Googleの創業者である
ラリー・ペイジと
セルゲイ・ブリンによって
1998年に開発されました。ページランクという名称は、
ウェブページの「ページ」と
ラリー・ペイジの
姓を組み合わせたものです。
Googleの
商標として登録されているこの技術は、
特許も取得されています。ただし、
特許権はGoogleではなく
スタンフォード大学に帰属し、Googleは同大学から独占的にライセンスを受けています。
スタンフォード大学は、この
特許の対価としてGoogleの株式を受け取り、後に売却しています。
ページランクの基本概念
ページランクの
アルゴリズムは、学術論文の
引用分析に着想を得ています。学術論文の重要度は、他の論文からどれだけ
引用されているかで測られます。同様に、
ウェブページも多くのページからリンクされているほど重要だと考えられます。
さらに、
引用数の多い論文から
引用されている論文は、その重要度が高いという考え方があります。
ウェブページでも、重要なページからのリンクは価値が高いとみなされます。ただし、乱発されたリンクは価値が低く、リンク集のように多くのリンクを張るだけのサイトからのリンクは、重要度が相対的に低くなります。
ページランクは、数億から数十億もの
ウェブページのリンク関係を解析し、このような概念を適用することで、
ウェブページの重要度を評価します。この手法により、相互にリンクし合っているだけのサイトや、多数のリンクを張っているだけのサイトの評価が抑制されます。
ページランクの計算方法
ページランクの計算は、以下のように
数学的に表現できます。
1. 各ページには固有の得点(ページランク)が割り当てられます。
2. あるページXの得点をPとします。
3. 他のページからXへのリンクの得点をそれぞれ I₁, ..., In とします。
4. Xから他のページへのリンクの得点をそれぞれ O₁, ..., Om とします。
5. 次の関係が成り立ちます。
- I₁ + ... + In = P (ページXへの流入リンクの得点合計はページXの得点と等しい)
- O₁ = ... = Om = P/m (ページXから流出するリンクの得点は均等に配分される)
ページランクは、ページへの流入リンクの得点合計をそのページの得点とします。そして、この得点が大きいほど、そのページは重要であるとみなされます。ページ全体の得点に矛盾が生じないように得点を割り振る必要があり、この問題はフロー問題として解決されます。
ページランクの計算を
グラフ理論の言葉で表現すると、次のようになります。
1. WWW上の各ページをノード、リンクをエッジとした有向グラフを考えます。
2. この有向グラフの隣接行列をA=(aij)とし、行列B=(bij)を bij=aji/∑k ajkで定義します。
3. 行列 (1-d)JN/N + dB の最大固有値に属する固有ベクトルを求めます。ここで、JNは要素が全て1のN×N行列、dはダンピングファクターです。
4. この固有ベクトルの各要素が、各ページのページランクを表します。
ここで、行列Bは、行列Aの転置行列の各要素を、その列の非ゼロ要素の数で割ったものであり、Bの各列の和は1になります。Bは推移確率行列と呼ばれ、あるページから別のページへリンクを辿る確率を表します。
ページランクの別の定義式
ページランクPR(A)は、以下の式でも定義できます。
PR(A) = (1-d)/N + d
Σ[PR(Ti)/C(Ti)]
ここで、
- - PR(Ti) はページAにリンクしているページTiのページランク。
- - C(Ti) はページTiに含まれる他ページへのリンクの総数。
- - d はダンピングファクター(通常0.85)。
- - N は総ページ数。
ダンピングファクターは、リンクを辿ってページを遷移する確率を表します。この値が小さいほど、ランダムにページを遷移する可能性が高まり、ページランクを操作することが難しくなります。
rel="nofollow"属性
リンクに `rel="nofollow"` 属性を付与することで、そのリンクはページランクの計算対象から除外されます。この属性は、ブログのコメントスパム対策として導入されました。例えば、`` と記述すると、`http://example.com` へのリンクは、ページランクの計算に影響を与えません。
この属性は、Wikipediaを含むMediaWikiの外部リンクにも使用されています。
ページランクとSEO
検索エンジン最適化(SEO)では、ページランクを向上させるための様々な戦略が用いられます。ただし、Googleのアルゴリズムは常に更新されており、ページランクはあくまで指標の一つに過ぎません。良質なコンテンツを提供し、ユーザーにとって価値のあるウェブサイトを構築することが最も重要です。
参考文献
Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine
Langville, Amy N.; Meyer, Carl D. (2011) [2006]. Google's PageRank and Beyond.
Page, L.; Brin, S.; Motwani, Rajeev; Winograd, Terry (1999), The PageRank Citation Ranking: Bringing Order to the Web
関連項目
検索エンジン最適化(SEO)
外部リンク
How Google Finds Your Needle in the Web's Haystack (
数学者による最も平易かつ信頼性の高いページランクの解説。英文)