Python語言實現機器學習的K-近鄰算法

2019-11-25 17:17:53

字體：大中小

來源：轉載

供稿：網友

寫在前面

額、、、最近開始學習機器學習嘛，網上找到一本關于機器學習的書籍，名字叫做《機器學習實戰》。很巧的是，這本書里的算法是用Python語言實現的，剛好之前我學過一些Python基礎知識，所以這本書對于我來說，無疑是雪中送炭啊。接下來，我還是給大家講講實際的東西吧。

什么是K-近鄰算法？

簡單的說，K-近鄰算法就是采用測量不同特征值之間的距離方法來進行分類。它的工作原理是：存在一個樣本數據集合，也稱作訓練樣本集，并且樣本集中每個數據都存在標簽，即我們知道樣本集中每一數據與所屬分類的對應關系，輸入沒有標簽的新數據之后，將新數據的每個特征與樣本集中數據對應的特征進行比較，然后算法提取出樣本集中特征最相似數據的分類標簽。一般來說，我們只選擇樣本數據集中前k個最相似的數據，這就是K-近鄰算法名稱的由來。

提問：親，你造K-近鄰算法是屬于監督學習還是無監督學習呢？

使用Python導入數據

從K-近鄰算法的工作原理中我們可以看出，要想實施這個算法來進行數據分類，我們手頭上得需要樣本數據，沒有樣本數據怎么建立分類函數呢。所以，我們第一步就是導入樣本數據集合。

建立名為kNN.py的模塊，寫入代碼：

 from numpy import * import operator  def createDataSet():   group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])   labels = ['A','A','B','B']   return group, labels

代碼中，我們需要導入Python的兩個模塊：科學計算包NumPy和運算符模塊。NumPy函數庫是Python開發環境的一個獨立模塊，大多數Python版本里沒有默認安裝NumPy函數庫，因此這里我們需要單獨安裝這個模塊。

下載地址：http://sourceforge.net/projects/numpy/files/

有很多的版本，這里我選擇的是numpy-1.7.0-win32-superpack-python2.7.exe。

實現K-近鄰算法

K-近鄰算法的具體思想如下：

（1）計算已知類別數據集中的點與當前點之間的距離

（2）按照距離遞增次序排序

（3）選取與當前點距離最小的k個點

（4）確定前k個點所在類別的出現頻率

（5）返回前k個點中出現頻率最高的類別作為當前點的預測分類

Python語言實現K-近鄰算法的代碼如下：

 # coding : utf-8 from numpy import * import operator  import kNN group, labels = kNN.createDataSet() def classify(inX, dataSet, labels, k):   dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize,1)) - dataSet   sqDiffMat = diffMat**2   sqDistances = sqDiffMat.sum(axis=1)   distances = sqDistances**0.5   sortedDistances = distances.argsort()   classCount = {}   for i in range(k):     numOflabel = labels[sortedDistances[i]]     classCount[numOflabel] = classCount.get(numOflabel,0) + 1   sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1),reverse=True)   return sortedClassCount[0][0] my = classify([0,0], group, labels, 3) print my

運算結果如下：