本文實例講述了Python決策樹和隨機森林算法。分享給大家供大家參考,具體如下:
決策樹和隨機森林都是常用的分類算法,它們的判斷邏輯和人的思維方式非常類似,人們常常在遇到多個條件組合問題的時候,也通常可以畫出一顆決策樹來幫助決策判斷。本文簡要介紹了決策樹和隨機森林的算法以及實現,并使用隨機森林算法和決策樹算法來檢測FTP暴力破解和POP3暴力破解,詳細代碼可以參考:
https://github.com/traviszeng/MLWithWebSecurity
決策樹算法
決策樹表現了對象屬性和屬性值之間的一種映射關系。決策樹中的每個節點表示某個對象,而每個分叉路徑則表示某個可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷的路徑所表現的對象值。在數據挖掘中,我們常常使用決策樹來進行數據分類和預測。
決策樹的helloworld
在這一小節,我們簡單使用決策樹來對iris數據集進行數據分類和預測。這里我們要使用sklearn下的tree的graphviz來幫助我們導出決策樹,并以pdf的形式存儲。具體代碼如下:
#決策樹的helloworld 使用決策樹對iris數據集進行分類from sklearn.datasets import load_irisfrom sklearn import treeimport pydotplus#導入iris數據集iris = load_iris()#初始化DecisionTreeClassifierclf = tree.DecisionTreeClassifier()#適配數據clf = clf.fit(iris.data, iris.target)#將決策樹以pdf格式可視化dot_data = tree.export_graphviz(clf, out_file=None)graph = pydotplus.graph_from_dot_data(dot_data)graph.write_pdf("iris.pdf")iris數據集得到的可視化決策樹如下圖所示:

通過這個小例子,我們可以初步感受到決策樹的工作過程和特點。相較于其他的分類算法,決策樹產生的結果更加直觀也更加符合人類的思維方式。
使用決策樹檢測POP3暴力破解
在這里我們是用KDD99數據集中POP3相關的數據來使用決策樹算法來學習如何識別數據集中和POP3暴力破解相關的信息。關于KDD99數據集的相關內容可以自行google一下。下面是使用決策樹算法的源碼:
#使用決策樹算法檢測POP3暴力破解import reimport matplotlib.pyplot as pltfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import cross_val_scoreimport osfrom sklearn.datasets import load_irisfrom sklearn import treeimport pydotplus#加載kdd數據集def load_kdd99(filename): X=[] with open(filename) as f: for line in f: line = line.strip('/n') line = line.split(',') X.append(line) return X#找到訓練數據集def get_guess_passwdandNormal(x): v=[] features=[] targets=[] #找到標記為guess-passwd和normal且是POP3協議的數據 for x1 in x: if ( x1[41] in ['guess_passwd.','normal.'] ) and ( x1[2] == 'pop_3' ): if x1[41] == 'guess_passwd.': targets.append(1) else: targets.append(0) #挑選與POP3密碼破解相關的網絡特征和TCP協議內容的特征作為樣本特征 x1 = [x1[0]] + x1[4:8]+x1[22:30] v.append(x1) for x1 in v : v1=[] for x2 in x1: v1.append(float(x2)) features.append(v1) return features,targetsif __name__ == '__main__': v=load_kdd99("../../data/kddcup99/corrected") x,y=get_guess_passwdandNormal(v) clf = tree.DecisionTreeClassifier() print(cross_val_score(clf, x, y, n_jobs=-1, cv=10)) clf = clf.fit(x, y) dot_data = tree.export_graphviz(clf, out_file=None) graph = pydotplus.graph_from_dot_data(dot_data) graph.write_pdf("POP3Detector.pdf")
新聞熱點
疑難解答