機器學習python實戰之手寫數字識別

2020-01-04 16:26:38

字體：大中小

來源：轉載

供稿：網友

看了上一篇內容之后，相信對K近鄰算法有了一個清晰的認識，今天的內容——手寫數字識別是對上一篇內容的延續，這里也是為了自己能更熟練的掌握k-NN算法。

我們有大約2000個訓練樣本和1000個左右測試樣本，訓練樣本所在的文件夾是trainingDigits，測試樣本所在的文件夾是testDigits。文本文件中是0~9的數字，但是是用二值圖表示出來的，如圖。我們要做的就是使用訓練樣本訓練模型，并用測試樣本來檢測模型的性能。

python手寫數字識別,python數字識別,python手寫識別

首先，我們需要將文本文件中的內容轉化為向量，因為圖片大小是32*32，所以我們可以將其轉化為1*1024的向量。具體代碼實現如下：

def img2vector(filename):  imgVec = zeros((1,1024))  file = open(filename)  for i in range(32):    lines = file.readline()    for j in range(32):      imgVec[0,32*i+j] = lines[j]  return imgVec

實現了圖片到向量的轉化之后，我們就可以對測試文件中的內容進行識別了。這里的識別我們可以使用上一篇中的自定義函數classify0，這個函數的第一個參數是測試向量，第二個參數是訓練數據集，第三個參數是訓練集的標簽。所以，我們首先需要將訓練數據集轉化為（1934*1024）的矩陣，1934這里是訓練集的組數即trainingDigits目錄下的文件數，其對應的標簽轉化為（1*1934）的向量。之后要編寫的代碼就是對測試數據集中的每個文本文件進行識別，也就是需要將每個文件都轉化成一個（1*1024）的向量，再傳入classify0函數的第一個形參。整體代碼如下：

def handWriteNumClassTest():  NumLabels = []  TrainingDirfile = listdir(r'D:/ipython/num_recognize/trainingDigits')#文件目錄  L = len(TrainingDirfile)  #該目錄中有多少文件  TrainMat = zeros((L,1024))  for i in range(L):    file_n = TrainingDirfile[i]    fileName = file_n.split('.')[0]    ClassName = int(file_n.split('_')[0])    NumLabels.append(ClassName)    TrainMat[i,:] = img2vector(r'D:/ipython/num_recognize/trainingDigits/%s'%file_n)  TestfileDir = listdir(r'D:/ipython/num_recognize/testDigits')  error_cnt = 0.0  M = len(TestfileDir)  for j in range(M):    Testfile = TestfileDir[j]    TestfileName = Testfile.split('.')[0]    TestClassName = int(Testfile.split('_')[0])    TestVector = img2vector(r'D:/ipython/num_recognize/testDigits/%s'%Testfile)    result = classify0(TestVector,TrainMat,NumLabels,3)    print('the result is %d,the real answer is %d/n'%(result,TestClassName))    if result!=TestClassName:      error_cnt+=1  print('the total num of errors is %f/n'%error_cnt)  print('the error rate is %f/n'%(error_cnt/float(M)))

這里需要首先導入listdir方法，from os import listdir，它可以列出給定目錄的文件名。對于測試的每個文件，如果識別的分類結果跟真實結果不一樣，則錯誤數+1，最終用錯誤數/測試總數來表示該模型的性能。下面給出結果

python手寫數字識別,python數字識別,python手寫識別