K-means法によるクラスタリング

データ群を互いに似通ったもの同士、複数のグループに分けるためにクラスタリングが行われる。
もっとも基本的なクラスタリングアルゴリズムとしてK-means法がある。

K-means法によるクラスタリングの手順
1. 各データをランダムに選んだクラスタに割り当てる。
2. 各クラスタの重心を計算する。
3. 各データと各クラスタの重心との距離を調べ、もっとも重心位置の近いクラスタに割り当て直す。
4. 変化しなくなるまで 2, 3を繰り返す。


このアルゴリズムが動作する様子を可視化したものが次のサイトにあった。

クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた (てっく煮ブログ)


マウスのクリックによって、クラスタリングが進んでいく様子を観察できる。
見ているだけでも楽しい。
3次元版もこちらにある。
http://d.hatena.ne.jp/nitoyon/20090413/kmeans_visualize_3d


データマイニングの基礎 (IT Text)数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)データマイニング入門