距離行列(きょりぎょうれつ)
概要
距離
行列とは、複数の対象物、あるいは「点」と呼ばれる要素間の「距離」を数値化し、それを一覧できるように
行列形式で並べたものです。特定の2点間における数値的な隔たりを示す値を要素として持ちます。これは、単に対象間の遠近関係を把握するだけでなく、様々なデータ分析や科学技術分野における計算の基礎となります。
構造
距離
行列は、対象となる点の数をNとすると、N行N列の正方
行列として表現されます。
行列の各要素 $(i, j)$ は、点$i$と点$j$の間の距離を表します。距離の定義によりますが、一般的に距離は非負であり、点$i$から点$j$への距離と点$j$から点$i$への距離は等しい(つまり対称性を持つ)ため、距離
行列は
対称行列となります。
また、点自身から点自身への距離、すなわち対角成分 $(i, i)$ の要素は常にゼロとなります。対称性により、
行列の上三角部分または下三角部分の要素のみを考慮すれば、すべての異なる点間の距離情報が得られます。したがって、独立した距離データの数は、N個の点から2点を選ぶ組み合わせの数に等しく、Nかける(Nマイナス1)を2で割った数となります。
隣接行列との違い
距離
行列と似た概念に隣接
行列がありますが、両者は根本的に異なります。隣接
行列は、グラフ理論において、頂点(点)間に直接的なエッジ(辺)が存在するかどうかを示すための
行列であり、通常はその存在を1、非存在を0で表します。隣接
行列は、点間の接続関係のみを記述するのに対し、距離
行列は点間の具体的な数値的な距離を扱うという点で明確に区別されます。
応用
距離
行列は、様々な分野で広く活用されています。
距離
行列の重要な応用の一つに、「距離
行列法」と呼ばれる
データ・クラスタリング手法があります。これは、距離
行列によって示される点と点との間の近さに基づいて、比較的距離が近い点の集まりを一つの「クラスタ」(群)として識別する手法です。この手法を用いることで、データの隠れた構造を発見したり、似た特性を持つデータをグループ化したりすることが可能になります。具体的なクラスタリングアルゴリズムにはいくつかの種類が存在し、距離
行列を入力として利用します。
特に
バイオインフォマティクス分野では、距離
行列が中心的な役割を果たします。例えば、異なる生物種のアミノ酸配列(タンパク質の構成要素の並び)や
塩基配列(
遺伝子の構成要素の並び)を比較し、それらの間の類似性や相違性を定量的な「距離」として算出します。この距離情報をもとに距離
行列を作成し、非加重結合法(UPGMA)や
近隣結合法(Neighbor-Joining)といった手法を用いて、それらの生物種や
遺伝子間の進化的な隔たりを示す「系統樹」を作成するために利用されます。
構造解析
さらに、距離
行列は分子の立体構造を解析する際にも用いられます。例えば、
核磁気共鳴(NMR)分光法やX線結晶解析といった実験手法を用いて、タンパク質などの生体分子を構成する原子間の距離情報を取得した場合、その情報を距離
行列として整理することができます。この距離
行列をもとに、分子が実際にどのような三次元的な形をしているかを推定するために活用されます。これは、分子の機能や性質を理解する上で非常に重要なステップとなります。