K-means聚類算法介紹與利用python實現的代碼示例

2020-01-04 16:31:50

字體：大中小

來源：轉載

供稿：網友

聚類

今天說K-meanspython/78037.html">聚類算法，但是必須要先理解聚類和分類的區別，很多業務人員在日常分析時候不是很嚴謹，混為一談，其實二者有本質的區別。

分類其實是從特定的數據中挖掘模式，作出判斷的過程。比如Gmail郵箱里有垃圾郵件分類器，一開始的時候可能什么都不過濾，在日常使用過程中，我人工對于每一封郵件點選“垃圾”或“不是垃圾”，過一段時間，Gmail就體現出一定的智能，能夠自動過濾掉一些垃圾郵件了。這是因為在點選的過程中，其實是給每一條郵件打了一個“標簽”，這個標簽只有兩個值，要么是“垃圾”，要么“不是垃圾”，Gmail就會不斷研究哪些特點的郵件是垃圾，哪些特點的不是垃圾，形成一些判別的模式，這樣當一封信的郵件到來，就可以自動把郵件分到“垃圾”和“不是垃圾”這兩個我們人工設定的分類的其中一個。

聚類的的目的也是把數據分類，但是事先我是不知道如何去分的，完全是算法自己來判斷各條數據之間的相似性，相似的就放在一起。在聚類的結論出來之前，我完全不知道每一類有什么特點，一定要根據聚類的結果通過人的經驗來分析，看看聚成的這一類大概有什么特點。

1、概述

k-means是一種非常常見的聚類算法，在處理聚類任務中經常使用。K-means算法是集簡單和經典于一身的基于距離的聚類算法

采用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。

該算法認為類簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。

2、核心思想

通過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

k-means算法的基礎是最小誤差平方和準則,

其代價函數是：

kmeans,聚類算法,python,kmeans聚類算法實現

式中，μc(i)表示第i個聚類的均值。

各類簇內的樣本越相似，其與該類均值間的誤差平方越小，對所有類所得到的誤差平方求和，即可驗證分為k類時，各聚類是否是最優的。

上式的代價函數無法用解析的方法最小化，只能有迭代的方法。

3、算法步驟圖解

下圖展示了對n個樣本點進行K-means聚類的效果，這里k取2。

kmeans,聚類算法,python,kmeans聚類算法實現

4、算法實現步驟

k-means算法是將樣本聚類成 k個簇（cluster），其中k是用戶給定的，其求解過程非常直觀簡單，具體算法描述如下：

1)隨機選取 k個聚類質心點

2)重復下面過程直到收斂 {

對于每一個樣例 i，計算其應該屬于的類：

kmeans,聚類算法,python,kmeans聚類算法實現

對于每一個類 j，重新計算該類的質心：

kmeans,聚類算法,python,kmeans聚類算法實現

}

其偽代碼如下：

******************************************************************************

創建k個點作為初始的質心點（隨機選擇）

當任意一個點的簇分配結果發生改變時

對數據集中的每一個數據點

對每一個質心

計算質心與數據點的距離

將數據點分配到距離最近的簇

對每一個簇，計算簇中所有點的均值，并將均值作為質心

********************************************************

5、K-means聚類算法python實戰

需求：

對給定的數據集進行聚類

本案例采用二維數據集，共80個樣本，有4個類。

kmeans,聚類算法,python,kmeans聚類算法實現

#!/usr/bin/python# coding=utf-8from numpy import *# 加載數據def loadDataSet(fileName): # 解析文件，按tab分割字段，得到一個浮點數字類型的矩陣  dataMat = []       # 文件的最后一個字段是類別標簽  fr = open(fileName)  for line in fr.readlines():    curLine = line.strip().split('/t')    fltLine = map(float, curLine)  # 將每個元素轉成float類型    dataMat.append(fltLine)  return dataMat# 計算歐幾里得距離def distEclud(vecA, vecB):  return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離# 構建聚簇中心，取k個(此例中為4)隨機質心def randCent(dataSet, k):  n = shape(dataSet)[1]  centroids = mat(zeros((k,n)))  # 每個質心有n個坐標值，總共要k個質心  for j in range(n):    minJ = min(dataSet[:,j])    maxJ = max(dataSet[:,j])    rangeJ = float(maxJ - minJ)    centroids[:,j] = minJ + rangeJ * random.rand(k, 1)  return centroids# k-means 聚類算法def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):  m = shape(dataSet)[0]  clusterAssment = mat(zeros((m,2)))  # 用于存放該樣本屬于哪類及質心距離  # clusterAssment第一列存放該數據所屬的中心點，第二列是該數據到中心點的距離  centroids = createCent(dataSet, k)  clusterChanged = True  # 用來判斷聚類是否已經收斂  while clusterChanged:    clusterChanged = False;    for i in range(m): # 把每一個數據點劃分到離它最近的中心點      minDist = inf; minIndex = -1;      for j in range(k):        distJI = distMeans(centroids[j,:], dataSet[i,:])        if distJI < minDist:          minDist = distJI; minIndex = j # 如果第i個數據點到第j個中心點更近，則將i歸屬為j      if clusterAssment[i,0] != minIndex: clusterChanged = True; # 如果分配發生變化，則需要繼續迭代      clusterAssment[i,:] = minIndex,minDist**2  # 并將第i個數據點的分配情況存入字典    print centroids    for cent in range(k):  # 重新計算中心點      ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]  # 去第一列等于cent的所有列      centroids[cent,:] = mean(ptsInClust, axis = 0) # 算出這些數據的中心點  return centroids, clusterAssment# --------------------測試----------------------------------------------------# 用測試數據及測試kmeans算法datMat = mat(loadDataSet('testSet.txt'))myCentroids,clustAssing = kMeans(datMat,4)print myCentroidsprint clustAssing

運行結果：

kmeans,聚類算法,python,kmeans聚類算法實現