機(jī)器學(xué)習(xí)三--用Python實(shí)現(xiàn)K-近鄰算法

2019-11-14 17:09:24

字體：大中小

供稿：網(wǎng)友

Python語(yǔ)言實(shí)現(xiàn)機(jī)器學(xué)習(xí)的K-近鄰算法

寫(xiě)在前面

額、、、最近開(kāi)始學(xué)習(xí)機(jī)器學(xué)習(xí)嘛，網(wǎng)上找到一本關(guān)于機(jī)器學(xué)習(xí)的書(shū)籍，名字叫做《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》。很巧的是，這本書(shū)里的算法是用Python語(yǔ)言實(shí)現(xiàn)的，剛好之前我學(xué)過(guò)一些Python基礎(chǔ)知識(shí)，所以這本書(shū)對(duì)于我來(lái)說(shuō)，無(wú)疑是雪中送炭啊。接下來(lái)，我還是給大家講講實(shí)際的東西吧。

什么是K-近鄰算法？

簡(jiǎn)單的說(shuō)，K-近鄰算法就是采用測(cè)量不同特征值之間的距離方法來(lái)進(jìn)行分類(lèi)。它的工作原理是：存在一個(gè)樣本數(shù)據(jù)集合，也稱(chēng)作訓(xùn)練樣本集，并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽，即我們知道樣本集中每一數(shù)據(jù)與所屬分類(lèi)的對(duì)應(yīng)關(guān)系，輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)之后，將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較，然后算法提取出樣本集中特征最相似數(shù)據(jù)的分類(lèi)標(biāo)簽。一般來(lái)說(shuō)，我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù)，這就是K-近鄰算法名稱(chēng)的由來(lái)。

提問(wèn)：親，你造K-近鄰算法是屬于監(jiān)督學(xué)習(xí)還是無(wú)監(jiān)督學(xué)習(xí)呢？

使用Python導(dǎo)入數(shù)據(jù)

從K-近鄰算法的工作原理中我們可以看出，要想實(shí)施這個(gè)算法來(lái)進(jìn)行數(shù)據(jù)分類(lèi)，我們手頭上得需要樣本數(shù)據(jù)，沒(méi)有樣本數(shù)據(jù)怎么建立分類(lèi)函數(shù)呢。所以，我們第一步就是導(dǎo)入樣本數(shù)據(jù)集合。

建立名為kNN.py的模塊，寫(xiě)入代碼：

1 from numpy import *2 import Operator3 4 def createDataSet():5     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])6     labels = ['A','A','B','B']7     return group, labels

代碼中，我們需要導(dǎo)入Python的兩個(gè)模塊：科學(xué)計(jì)算包NumPy和運(yùn)算符模塊。NumPy函數(shù)庫(kù)是Python開(kāi)發(fā)環(huán)境的一個(gè)獨(dú)立模塊，大多數(shù)Python版本里沒(méi)有默認(rèn)安裝NumPy函數(shù)庫(kù)，因此這里我們需要單獨(dú)安裝這個(gè)模塊。

下載戳這里：NumPy

有很多的版本，這里我選擇的是numpy-1.7.0-win32-superpack-python2.7.exe。

實(shí)現(xiàn)K-近鄰算法

K-近鄰算法的具體思想如下：

（1）計(jì)算已知類(lèi)別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離

（2）按照距離遞增次序排序

（3）選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)

（4）確定前k個(gè)點(diǎn)所在類(lèi)別的出現(xiàn)頻率

（5）返回前k個(gè)點(diǎn)中出現(xiàn)頻率最高的類(lèi)別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類(lèi)

Python語(yǔ)言實(shí)現(xiàn)K-近鄰算法的代碼如下：

 1 # coding : utf-8 2  3 from numpy import * 4 import operator  5 import kNN 6  7 group, labels = kNN.createDataSet() 8  9 def classify(inX, dataSet, labels, k):10     dataSetSize = dataSet.shape[0]  11     diffMat = tile(inX, (dataSetSize,1)) - dataSet12     sqDiffMat = diffMat**213     sqDistances = sqDiffMat.sum(axis=1)14     distances = sqDistances**0.515     sortedDistances = distances.argsort()16     classCount = {}17     for i in range(k):18         numOflabel = labels[sortedDistances[i]]19         classCount[numOflabel] = classCount.get(numOflabel,0) + 120     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1),reverse=True)21     return sortedClassCount[0][0]22 23 my = classify([0,0], group, labels, 3)24 PRint my

運(yùn)算結(jié)果如下：

輸出結(jié)果是B：說(shuō)明我們新的數(shù)據(jù)（[0,0]）是屬于B類(lèi)。

代碼詳解

相信有很多朋友們對(duì)上面這個(gè)代碼有很多不理解的地方，接下來(lái)，我重點(diǎn)講解幾個(gè)此函數(shù)的關(guān)鍵點(diǎn)，以方便讀者們和我自己回顧一下這個(gè)算法代碼。

classify函數(shù)的參數(shù)：

inX：用于分類(lèi)的輸入向量
dataSet：訓(xùn)練樣本集合
labels：標(biāo)簽向量
k：K-近鄰算法中的k

shape：是array的屬性，描述一個(gè)多維數(shù)組的維度

tile（inX, (dataSetSize,1)）：把inX二維數(shù)組化，dataSetSize表示生成數(shù)組后的行數(shù)，1表示列的倍數(shù)。整個(gè)這一行代碼表示前一個(gè)二維數(shù)組矩陣的每一個(gè)元素減去后一個(gè)數(shù)組對(duì)應(yīng)的元素值，這樣就實(shí)現(xiàn)了矩陣之間的減法，簡(jiǎn)單方便得不讓你佩服不行！

axis=1：參數(shù)等于1的時(shí)候，表示矩陣中行之間的數(shù)的求和，等于0的時(shí)候表示列之間數(shù)的求和。

argsort()：對(duì)一個(gè)數(shù)組進(jìn)行非降序排序

classCount.get(numOflabel,0) + 1：這一行代碼不得不說(shuō)的確很精美啊。get()：該方法是訪(fǎng)問(wèn)字典項(xiàng)的方法，即訪(fǎng)問(wèn)下標(biāo)鍵為numOflabel的項(xiàng)，如果沒(méi)有這一項(xiàng)，那么初始值為0。然后把這一項(xiàng)的值加1。所以Python中實(shí)現(xiàn)這樣的操作就只需要一行代碼，實(shí)在是很簡(jiǎn)潔高效。