国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

python決策樹(shù)之CART分類回歸樹(shù)詳解

2020-02-16 11:13:41
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

決策樹(shù)之CART(分類回歸樹(shù))詳解,具體內(nèi)容如下

1、CART分類回歸樹(shù)簡(jiǎn)介

  CART分類回歸樹(shù)是一種典型的二叉決策樹(shù),可以處理連續(xù)型變量和離散型變量。如果待預(yù)測(cè)分類是離散型數(shù)據(jù),則CART生成分類決策樹(shù);如果待預(yù)測(cè)分類是連續(xù)型數(shù)據(jù),則CART生成回歸決策樹(shù)。數(shù)據(jù)對(duì)象的條件屬性為離散型或連續(xù)型,并不是區(qū)別分類樹(shù)與回歸樹(shù)的標(biāo)準(zhǔn),例如表1中,數(shù)據(jù)對(duì)象xi的屬性A、B為離散型或連續(xù)型,并是不區(qū)別分類樹(shù)與回歸樹(shù)的標(biāo)準(zhǔn)。

表1
表1

2、CART分類回歸樹(shù)分裂屬性的選擇

  2.1 CART分類樹(shù)——待預(yù)測(cè)分類為離散型數(shù)據(jù)

  選擇具有最小Gain_GINI的屬性及其屬性值,作為最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。Gain_GINI值越小,說(shuō)明二分之后的子樣本的“純凈度”越高,即說(shuō)明選擇該屬性(值)作為分裂屬性(值)的效果越好。
  對(duì)于樣本集SGINI計(jì)算如下:

這里寫圖片描述

其中,在樣本集S中,Pk表示分類結(jié)果中第k個(gè)類別出現(xiàn)的頻率。

  對(duì)于含有N個(gè)樣本的樣本集S,根據(jù)屬性A的第i個(gè)屬性值,將數(shù)據(jù)集S劃分成兩部分,則劃分成兩部分之后,Gain_GINI計(jì)算如下:

這里寫圖片描述

其中,n1、n2分別為樣本子集S1S2的樣本個(gè)數(shù)。

  對(duì)于屬性A,分別計(jì)算任意屬性值將數(shù)據(jù)集劃分成兩部分之后的Gain_GINI,選取其中的最小值,作為屬性A得到的最優(yōu)二分方案:

這里寫圖片描述

對(duì)于樣本集S,計(jì)算所有屬性的最優(yōu)二分方案,選取其中的最小值,作為樣本集S的最優(yōu)二分方案:

這里寫圖片描述

所得到的屬性A及其第i屬性值,即為樣本集S的最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。

  2.2 CART回歸樹(shù)——待預(yù)測(cè)分類為連續(xù)型數(shù)據(jù)

  區(qū)別于分類樹(shù),回歸樹(shù)的待預(yù)測(cè)分類為連續(xù)型數(shù)據(jù)。同時(shí),區(qū)別于分類樹(shù)選取

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 宿松县| 潞西市| 浏阳市| 弥勒县| 大同县| 开鲁县| 博乐市| 莱阳市| 庆云县| 宁蒗| 萨嘎县| 平凉市| 闵行区| 汽车| 林甸县| 博白县| 绥化市| 临桂县| 东方市| 鲁甸县| 修武县| 琼结县| 云林县| 瓦房店市| 林芝县| 开江县| 弥勒县| 兴隆县| 东乌珠穆沁旗| 鄂温| 新巴尔虎右旗| 罗山县| 锡林浩特市| 福建省| 章丘市| 时尚| 齐河县| 崇文区| 巩义市| 黄大仙区| 拉孜县|