国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python實現的KMeans聚類算法實例分析

2020-01-04 13:39:47
字體:
來源:轉載
供稿:網友

本文實例講述了Python實現的KMeans聚類算法。分享給大家供大家參考,具體如下:

菜鳥一枚,編程初學者,最近想使用Python3實現幾個簡單的機器學習分析方法,記錄一下自己的學習過程。

關于KMeans算法本身就不做介紹了,下面記錄一下自己遇到的問題。

一 、關于初始聚類中心的選取

初始聚類中心的選擇一般有:

(1)隨機選取

(2)隨機選取樣本中一個點作為中心點,在通過這個點選取距離其較大的點作為第二個中心點,以此類推。

(3)使用層次聚類等算法更新出初始聚類中心

我一開始是使用numpy隨機產生k個聚類中心

Center = np.random.randn(k,n)

但是發現聚類的時候迭代幾次以后聚類中心會出現nan,有點搞不清楚怎么回事

所以我分別嘗試了:

(1)選擇數據集的前K個樣本做初始中心點

(2)選擇隨機K個樣本點作為初始聚類中心

發現兩者都可以完成聚類,我是用的是iris.csv數據集,在選擇前K個樣本點做數據集時,迭代次數是固定的,選擇隨機K個點時,迭代次數和隨機種子的選取有關,而且聚類效果也不同,有的隨機種子聚類快且好,有的慢且差。

def InitCenter(k,m,x_train):  #Center = np.random.randn(k,n)  #Center = np.array(x_train.iloc[0:k,:]) #取數據集中前k個點作為初始中心  Center = np.zeros([k,n])         #從樣本中隨機取k個點做初始聚類中心  np.random.seed(5)            #設置隨機數種子  for i in range(k):    x = np.random.randint(m)    Center[i] = np.array(x_train.iloc[x])  return Center

二 、關于類間距離的選取

為了簡單,我直接采用了歐氏距離,目前還沒有嘗試其他的距離算法。

def GetDistense(x_train, k, m, Center):  Distence=[]  for j in range(k):    for i in range(m):      x = np.array(x_train.iloc[i, :])      a = x.T - Center[j]      Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center)      Distence.append(Dist)  Dis_array = np.array(Distence).reshape(k,m)  return Dis_array

三 、關于終止聚類條件的選取

關于聚類的終止條件有很多選擇方法:

(1)迭代一定次數

(2)聚類中心的更新小于某個給定的閾值

(3)類中的樣本不再變化

我用的是前兩種方法,第一種很簡單,但是聚類效果不好控制,針對不同數據集,穩健性也不夠。第二種比較合適,穩健性也強。第三種方法我還沒有嘗試,以后可以試著用一下,可能聚類精度會更高一點。

def KMcluster(x_train,k,n,m,threshold):  global axis_x, axis_y  center = InitCenter(k,m,x_train)  initcenter = center  centerChanged = True  t=0  while centerChanged:    Dis_array = GetDistense(x_train, k, m, center)    center ,axis_x,axis_y,axis_z= GetNewCenter(x_train,k,n,Dis_array)    err = np.linalg.norm(initcenter[-k:] - center)    print(err)    t+=1    plt.figure(1)    p=plt.subplot(3, 3, t)    p1,p2,p3 = plt.scatter(axis_x[0], axis_y[0], c='r'),plt.scatter(axis_x[1], axis_y[1], c='g'),plt.scatter(axis_x[2], axis_y[2], c='b')    plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')    p.set_title('Iteration'+ str(t))    if err < threshold:      centerChanged = False    else:      initcenter = np.concatenate((initcenter, center), axis=0)  plt.show()  return center, axis_x, axis_y,axis_z, initcenter

err是本次聚類中心點和上次聚類中心點之間的歐氏距離。

threshold是人為設定的終止聚類的閾值,我個人一般設置為0.1或者0.01。

為了將每次迭代產生的類別顯示出來我修改了上述代碼,使用matplotlib展示每次迭代的散點圖。

下面附上我測試數據時的圖,子圖設置的個數要根據迭代次數來定。

Python,KMeans,聚類算法

我測試了幾個數據集,聚類的精度還是可以的。

使用iris數據集分析的結果為:

err of Iteration 1 is 3.11443180281
err of Iteration 2 is 1.27568813621
err of Iteration 3 is 0.198909381512
err of Iteration 4 is 0.0
Final cluster center is  [[ 6.85        3.07368421  5.74210526  2.07105263]
 [ 5.9016129   2.7483871   4.39354839  1.43387097]
 [ 5.006       3.428       1.462       0.246     ]]

最后附上全部代碼,錯誤之處還請多多批評,謝謝。

#encoding:utf-8"""  Author:   njulpy  Version:   1.0  Data:   2018/04/11  Project: Using Python to Implement KMeans Clustering Algorithm"""import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfrom sklearn.cluster import KMeansdef InitCenter(k,m,x_train):  #Center = np.random.randn(k,n)  #Center = np.array(x_train.iloc[0:k,:]) #取數據集中前k個點作為初始中心  Center = np.zeros([k,n])         #從樣本中隨機取k個點做初始聚類中心  np.random.seed(15)            #設置隨機數種子  for i in range(k):    x = np.random.randint(m)    Center[i] = np.array(x_train.iloc[x])  return Centerdef GetDistense(x_train, k, m, Center):  Distence=[]  for j in range(k):    for i in range(m):      x = np.array(x_train.iloc[i, :])      a = x.T - Center[j]      Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center)      Distence.append(Dist)  Dis_array = np.array(Distence).reshape(k,m)  return Dis_arraydef GetNewCenter(x_train,k,n, Dis_array):  cen = []  axisx ,axisy,axisz= [],[],[]  cls = np.argmin(Dis_array, axis=0)  for i in range(k):    train_i=x_train.loc[cls == i]    xx,yy,zz = list(train_i.iloc[:,1]),list(train_i.iloc[:,2]),list(train_i.iloc[:,3])    axisx.append(xx)    axisy.append(yy)    axisz.append(zz)    meanC = np.mean(train_i,axis=0)    cen.append(meanC)  newcent = np.array(cen).reshape(k,n)  NewCent=np.nan_to_num(newcent)  return NewCent,axisx,axisy,axiszdef KMcluster(x_train,k,n,m,threshold):  global axis_x, axis_y  center = InitCenter(k,m,x_train)  initcenter = center  centerChanged = True  t=0  while centerChanged:    Dis_array = GetDistense(x_train, k, m, center)    center ,axis_x,axis_y,axis_z= GetNewCenter(x_train,k,n,Dis_array)    err = np.linalg.norm(initcenter[-k:] - center)    t+=1    print('err of Iteration '+str(t),'is',err)    plt.figure(1)    p=plt.subplot(2, 3, t)    p1,p2,p3 = plt.scatter(axis_x[0], axis_y[0], c='r'),plt.scatter(axis_x[1], axis_y[1], c='g'),plt.scatter(axis_x[2], axis_y[2], c='b')    plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')    p.set_title('Iteration'+ str(t))    if err < threshold:      centerChanged = False    else:      initcenter = np.concatenate((initcenter, center), axis=0)  plt.show()  return center, axis_x, axis_y,axis_z, initcenterif __name__=="__main__":  #x=pd.read_csv("8.Advertising.csv")  # 兩組測試數據  #x=pd.read_table("14.bipartition.txt")  x=pd.read_csv("iris.csv")  x_train=x.iloc[:,1:5]  m,n = np.shape(x_train)  k = 3  threshold = 0.1  km,ax,ay,az,ddd = KMcluster(x_train, k, n, m, threshold)  print('Final cluster center is ', km)  #2-Dplot  plt.figure(2)  plt.scatter(km[0,1],km[0,2],c = 'r',s = 550,marker='x')  plt.scatter(km[1,1],km[1,2],c = 'g',s = 550,marker='x')  plt.scatter(km[2,1],km[2,2],c = 'b',s = 550,marker='x')  p1, p2, p3 = plt.scatter(axis_x[0], axis_y[0], c='r'), plt.scatter(axis_x[1], axis_y[1], c='g'), plt.scatter(axis_x[2], axis_y[2], c='b')  plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')  plt.title('2-D scatter')  plt.show()  #3-Dplot  plt.figure(3)  TreeD = plt.subplot(111, projection='3d')  TreeD.scatter(ax[0],ay[0],az[0],c='r')  TreeD.scatter(ax[1],ay[1],az[1],c='g')  TreeD.scatter(ax[2],ay[2],az[2],c='b')  TreeD.set_zlabel('Z') # 坐標軸  TreeD.set_ylabel('Y')  TreeD.set_xlabel('X')  TreeD.set_title('3-D scatter')  plt.show()

Python,KMeans,聚類算法

Python,KMeans,聚類算法

附:上述示例中的iris.csv文件點擊此處本站下載

希望本文所述對大家Python程序設計有所幫助。


注:相關教程知識閱讀請移步到python教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 辽宁省| 奉贤区| 招远市| 福建省| 和田县| 许昌县| 辉县市| 古浪县| 资兴市| 工布江达县| 林芝县| 富阳市| 怀安县| 屏东市| 华阴市| 静宁县| 泰和县| 南皮县| 仙桃市| 东台市| 米泉市| 江陵县| 通州区| 梧州市| 阿克苏市| 庆云县| 永兴县| 东乡县| 涟水县| 化德县| 任丘市| 香格里拉县| 漠河县| 铜山县| 南华县| 济宁市| 察雅县| 简阳市| 石泉县| 城步| 绿春县|