国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

用python實現k近鄰算法的示例代碼

2020-02-15 22:56:09
字體:
來源:轉載
供稿:網友

K近鄰算法(或簡稱kNN)是易于理解和實現的算法,而且是你解決問題的強大工具。

什么是kNN

kNN算法的模型就是整個訓練數據集。當需要對一個未知數據實例進行預測時,kNN算法會在訓練數據集中搜尋k個最相似實例。對k個最相似實例的屬性進行歸納,將其作為對未知實例的預測。

相似性度量依賴于數據類型。對于實數,可以使用歐式距離來計算。其他類型的數據,如分類數據或二進制數據,可以用漢明距離。

對于回歸問題,會返回k個最相似實例屬性的平均值。對于分類問題,會返回k個最相似實例屬性出現最多的屬性。

kNN如何工作

kNN屬于基于實例算法簇的競爭學習和懶惰學習算法。

基于實例的算法運用數據實例(或數據行)對問題進行建模,進而做出預測決策。kNN算法算是基于實例方法的一種極端形式,因為其保留所有的訓練集數據作為模型的一部分。

kNN是一個競爭學習算法,因為為了做出決策,模型內部元素(數據實例)需要互相競爭。 數據實例之間客觀相似度的計算,促使每個數據實例都希望在競爭中“獲勝”或者盡可能地與給定的未知數據實例相似,繼而在預測中做出貢獻。

懶惰學習是指直到需要預測時算法才建立模型。它很懶,因為它只在最后一刻才開始工作。優點是只包含了與未知數據相關的數據,稱之為局部模型。缺點是,在大型訓練數據集中會重復相同或相似的搜索過程,帶來昂貴的計算開銷。

最后,kNN的強大之處在于它對數據不進行任何假設,除了任意兩個數據實例之間距離的一致計算。因此,它被稱為成為無參數或者非線性的,因為它沒有預設的函數模型。

用python寫程序真的好舒服。

import numpy as npdef read_data(filename):  '''讀取文本數據,格式:特征1  特征2 …… 類別'''  f=open(filename,'rt')  row_list=f.readlines() #以每行作為列表  f.close()  data_array=[]  labels_vector=[]  while True:    if not row_list:      break    row=row_list.pop(0).strip().split('/t') #去除換行號,分割制表符    temp_data_row=[float(a) for a in row[:-1]] #將字符型轉換為浮點型    data_array.append(temp_data_row) #取特征值    labels_vector.append(row[-1])  #取最后一個作為類別標簽  return np.array(data_array),np.array(labels_vector)def classify(test_data,dataset,labels,k):  '''分類'''  diff_dis_array=test_data-dataset  #使用numpy的broadcasting  dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5  #求距離  dis_array_index=np.argsort(dis_array)  #升序距離的索引  class_count={}  for i in range(k):    temp_label=labels[dis_array_index[i]]    class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數的字典  sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True)  #字典的值按降序排列  return sorted_class_count[0][0]  #返回元組列表的[0][0]def normalize(dataset):  '''數據歸一化'''  return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))k=3 #近鄰數test_data=[0,0] #待分類數據data,labels=read_data('testdata.txt')print('數據集:/n',data)print('標簽集:/n',labels)result=classify(test_data,normalize(data),labels,k)print('分類結果:',result)            
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 澄江县| 招远市| 长阳| 象州县| 大冶市| 曲阳县| 马龙县| 白沙| 虎林市| 巴中市| 五台县| 信丰县| 清镇市| 崇文区| 昌江| 恩平市| 蓝田县| 沐川县| 商丘市| 汾西县| 牙克石市| 杭锦后旗| 龙川县| 茂名市| 东源县| 武定县| 天水市| 荆州市| 肥西县| 上犹县| 南宁市| 新营市| 莱西市| 济南市| 道真| 汝城县| 兴仁县| 乌拉特中旗| 佛冈县| 侯马市| 交城县|