国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

淺談Python實現Apriori算法介紹

2020-02-16 11:11:22
字體:
來源:轉載
供稿:網友

導讀:

隨著大數據概念的火熱,啤酒與尿布的故事廣為人知。我們如何發現買啤酒的人往往也會買尿布這一規律?數據挖掘中的用于挖掘頻繁項集和關聯規則的Apriori算法可以告訴我們。本文首先對Apriori算法進行簡介,而后進一步介紹相關的基本概念,之后詳細的介紹Apriori算法的具體策略和步驟,最后給出Python實現代碼。

1.Apriori算法簡介

Apriori算法是經典的挖掘頻繁項集和關聯規則的數據挖掘算法。A priori在拉丁語中指"來自以前"。當定義問題時,通常會使用先驗知識或者假設,這被稱作"一個先驗"(a priori)。Apriori算法的名字正是基于這樣的事實:算法使用頻繁項集性質的先驗性質,即頻繁項集的所有非空子集也一定是頻繁的。Apriori算法使用一種稱為逐層搜索的迭代方法,其中k項集用于探索(k+1)項集。首先,通過掃描數據庫,累計每個項的計數,并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然后,使用L1找出頻繁2項集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項集。每找出一個Lk需要一次數據庫的完整掃描。Apriori算法使用頻繁項集的先驗性質來壓縮搜索空間。

2. 基本概念

    項與項集:設itemset={item1, item_2, …, item_m}是所有項的集合,其中,item_k(k=1,2,…,m)成為項。項的集合稱為項集(itemset),包含k個項的項集稱為k項集(k-itemset)。 事務與事務集:一個事務T是一個項集,它是itemset的一個子集,每個事務均與一個唯一標識符Tid相聯系。不同的事務一起組成了事務集D,它構成了關聯規則發現的事務數據庫。 關聯規則:關聯規則是形如A=>B的蘊涵式,其中A、B均為itemset的子集且均不為空集,而A交B為空。 支持度(support):關聯規則的支持度定義如下:

其中表示事務包含集合A和B的并(即包含A和B中的每個項)的概率。注意與P(A or B)區別,后者表示事務包含A或B的概率。

置信度(confidence):關聯規則的置信度定義如下:

項集的出現頻度(support count):包含項集的事務數,簡稱為項集的頻度、支持度計數或計數。

頻繁項集(frequent itemset):如果項集I的相對支持度滿足事先定義好的最小支持度閾值(即I的出現頻度大于相應的最小出現頻度(支持度計數)閾值),則I是頻繁項集。

強關聯規則:滿足最小支持度和最小置信度的關聯規則,即待挖掘的關聯規則。

3. 實現步驟

一般而言,關聯規則的挖掘是一個兩步的過程:

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 建宁县| 祁东县| 山西省| 贵德县| 天柱县| 泰安市| 呼和浩特市| 白河县| 佛山市| 正镶白旗| 镇雄县| 宜春市| 西乌珠穆沁旗| 万源市| 育儿| 佛教| 武定县| 顺平县| 清涧县| 大埔县| 陇南市| 武胜县| 格尔木市| 巴中市| 新绛县| 高州市| 邻水| 县级市| 奉化市| 云阳县| 昭苏县| 盈江县| 岳池县| 湖口县| 民权县| 长兴县| 许昌市| 布尔津县| 舞钢市| 轮台县| 墨江|