K-とはクラスタリングを意味しますか?

k-meansアルゴリズムによるデータマイニング

k-平均クラスタリングアルゴリズムは、データマイニングおよび機械学習ツールであり、関係を事前に知ることなく、観察を関連する観測のグループにクラスタリングするために使用されます。 サンプリングすることによって、アルゴリズムは、データが属するカテゴリまたはクラスタを、値kによって定義されるクラスタの数とともに表示しようと試みる

k-平均アルゴリズムは、最も簡単なクラスタリング手法の1つであり、医用画像、バイオメトリクス、および関連分野で一般的に使用されています。 k-手段の利点は、(アルゴリズムの監視された形式を使用して)開始時のデータについてアルゴリズムに指示するのではなく、自分のデータについて(教師なしの形式で)指示することです。

1957年にStuart Lloydによって最初に提案されたアルゴリズムであるため、Lloydのアルゴリズム、特にコンピュータサイエンスのサークルでも呼ばれます。「k-means」という用語は、1967年にJames McQueenによって作成されました。

k-meansアルゴリズム関数の仕組み

k-平均アルゴリズムは、その操作方法からその名前が得られる進化的アルゴリズムです。 このアルゴリズムは、観測値をk個のグループにクラスタリングし、 kは入力パラメータとして提供される。 その後、観測の各クラスタの平均値に基づいて各観測値をクラスタに割り当てます。 クラスタの平均値が再計算され、プロセスが再び開始されます。 アルゴリズムの仕組みは次のとおりです。

  1. このアルゴリズムは、 k点を初期クラスタ中心(手段)として任意に選択する。
  2. データセットの各点は、各点と各クラスタ中心間のユークリッド距離に基づいて、閉じたクラスタに割り当てられます。
  3. 各クラスタ中心は、そのクラスタ内の点の平均として再計算されます。
  4. ステップ2と3は、クラスタが収束するまで繰り返されます。 コンバージェンスは実装によって異なるように定義することができますが、通常は、ステップ2と3を繰り返すか、またはクラスタの定義に変更が加えられていない場合でも、クラスタを変更する観察もありません。

クラスタ数の選択

k-の主な欠点の1つは、アルゴリズムの入力としてクラスターの数を指定する必要があるということです。 設計通りに、アルゴリズムはクラスタの適切な数を決定することができず、事前にこれを識別するためにユーザに依存する。

たとえば、男性または女性としてバイナリの性同一性に基づいてクラスタ化される人のグループがある場合、入力k = 3を使用してk-平均アルゴリズムを呼び出すと、2つだけの場合には3つのクラスタに、 k = 2の入力は、より自然な適合を提供する。

同様に、個人のグループが家の状態に基づいて容易にクラスタ化され、入力k = 20で k-平均アルゴリズムを呼び出した場合その結果はあまりにも一般化して有効になる可能性があります。

このため、さまざまなkの値を試して、データに最も適した値を特定することをお勧めします。 また、機械学習の知識のために、 他のデータマイニングアルゴリズムの使用を探求することもできます。