k-means++法
k-means法ではセントロイドの初期値が不適切である場合, クラスタリングが上手く行かなかったり収束に時間がかかる場合がある.
この問題の対策としては
k-means++法での初期化
- 選択の対象となるk個のセントロイドを格納するために空のデータセットMを初期化する
- 入力サンプルから初期のセントロイドをランダムに選択しMに割り当てる
- Mに含まれていないサンプルごとにMのセントロイドに対して距離の2乗が最小となるセントロイドを求める
- 次のセントロイドをランダムに選択するには各サンプルの距離の重みを等しく以下の確立分布を使用する
- k個のセントロイドが選択されるまでステップ3-4を繰り返す
- 従来のk-means法を使って引き続き処理を行う