k平均法(k-means clustering)
k平均法は、データを非階層的にクラスタリングするための
アルゴリズムです。この手法では、与えられた数のクラスタにデータを分類することを目的とし、その際にクラスタの中心(平均点)を用います。この
アルゴリズムは、
1957年にHugo Steinhusにより初めて提案され、その後Stuart LloydやE.W. Forgy、James MacQueenといった研究者たちによって再発見され、発展してきました。特にJames MacQueenが
1967年に「k-means」という名前を付けたことで広まりました。
k平均法は、以下の流れで実行されます。まず、データの数をnとし、クラスタの数をkとします。次に、次のステップが行われます。
1.
初期クラスタの割り当て: 各データ点をランダムにk個のクラスタのいずれかに割り当てます。
2.
クラスタの中心を計算: 割り振られたデータに基づき、各クラスタの中心点(Vj)を計算します。この中心は、通常は各クラスタに属するデータ点の算術平均です。
3.
データの再割当て: 各データ点とクラスタ中心との距離を求め、最も近い中心を持つクラスタに再度データ点を割り当てます。
4.
収束条件の確認: 割り当てが変化しなくなるか、変化の量が事前に指定した閾値以下になった時点で収束したと見なします。このまま収束しなければ、クラスタ中心を再計算し、ステップ3に戻ります。
この手法はシンプルで効率的ですが、初期のクラスタ割り当てに大きく依存します。そのため、得られた結果が必ずしも最良とは限らず、異なる初期値を用いて何度も再実行することが一般的です。また、k-means++法などの手法を用いて、初期のクラスタ中心の選び方に工夫が加えられることがあります。
特徴と応用
k平均法はクラスタの数kをあらかじめ設定する必要があるため、最適なkの決定は別途考察が必要です。他の手法を用いて最適なクラスタ数を推定することが一般的です。k平均法は、多くの場面で異なるデータの特性に基づいて使用されており、ファジィc-平均法やエントロピー法など、関連する手法も豊富に存在します。これらは、データ構造の発見に寄与するものとして重要です。
k平均法はその計算の簡便さと理解のしやすさから、データマイニングや機械学習の分野で広く利用されています。特に、大規模なデータセットを扱う場合には、効率的にクラスタリングが行えるため重宝されています。
参考文献
- - 宮本定明 『クラスター分析入門 ファジィクラスタリングの理論と応用』 森北出版株式会社、1999年