国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

利用Mahout實(shí)現(xiàn)在Hadoop上運(yùn)行K-Means算法

2019-11-14 16:42:18
字體:
供稿:網(wǎng)友

利用Mahout實(shí)現(xiàn)在Hadoop上運(yùn)行K-Means算法

  一、介紹Mahout

    Mahout是Apache下的開源機(jī)器學(xué)習(xí)軟件包,目前實(shí)現(xiàn)的機(jī)器學(xué)習(xí)算法主要包含有協(xié)同過濾/推薦引擎聚類分類三個部分。Mahout從設(shè)計開始就旨在建立可擴(kuò)展的機(jī)器學(xué)習(xí)軟件包,用于處理大數(shù)據(jù)機(jī)器學(xué)習(xí)的問題,當(dāng)你正在研究的數(shù)據(jù)量大到不能在一臺機(jī)器上運(yùn)行時,就可以選擇使用Mahout,讓你的數(shù)據(jù)在Hadoop集群的進(jìn)行分析。Mahout某些部分的實(shí)現(xiàn)直接創(chuàng)建在Hadoop之上,這就使得其具有進(jìn)行大數(shù)據(jù)處理的能力,也是Mahout最大的優(yōu)勢所在。相比較于Weka,RapidMiner等圖形化的機(jī)器學(xué)習(xí)軟件,Mahout只提供機(jī)器學(xué)習(xí)的程序包(library),不提供用戶圖形界面,并且Mahout并不包含所有的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),這一點(diǎn)可以算得上是她的一個劣勢,但前面提到過Mahout并不是“又一個機(jī)器學(xué)習(xí)軟件”,而是要成為一個“可擴(kuò)展的用于處理大數(shù)據(jù)的機(jī)器學(xué)習(xí)軟件”,但是我相信會有越來越多的機(jī)器學(xué)習(xí)算法會在Mahout上面實(shí)現(xiàn)。[1]

    二、介紹K-Means

    https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering#,這是Apache官網(wǎng)上的算法描述,簡單來說就是基于劃分的聚類算法,把n個對象分為k個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進(jìn)行。[2]

    三、在Hadoop上實(shí)現(xiàn)運(yùn)行

    1,實(shí)驗(yàn)環(huán)境

        ①hadoop集群環(huán)境:1.2.1 一個Master,兩個Slaves,在開始運(yùn)行kmeans時啟動hadoop

        ②操作系統(tǒng):所有機(jī)器的系統(tǒng)均為Ubuntu12.04

        ③Mahout版本:采用的是0.5版

    2,數(shù)據(jù)準(zhǔn)備

        數(shù)據(jù)采用的是http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,這是網(wǎng)上提供的一個比較不錯是數(shù)據(jù)源。然后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata,將在我桌面的文件data上傳到HDFS的testdata目錄下,這里為什么是testdata,我也正在思考,因?yàn)槲冶緛硎巧蟼鞯絠nput里,但是運(yùn)行時提示could not find ….user/testdata之類的,所以現(xiàn)改為了testdata。

    3,運(yùn)行

        ①配置Mahout環(huán)境:在Apache官網(wǎng)下載Mahout的版本,我選擇的是0.5,下載地址:https://cwiki.apache.org/confluence/display/MAHOUT/Downloads。然后解壓到你指定的目錄,將此目錄路徑寫入/etc/PRofile,添加如下語句:

export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5

export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf

export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin

然后執(zhí)行 source /etc/profile。在mahout目錄下執(zhí)行bin/mahout命令,檢測系統(tǒng)是否安裝成功。如圖:

Screenshot from 2013-11-21 21_54_04

注:此處修改環(huán)境變量有些網(wǎng)上提示是/etc/bash.bashrc,我也試著修改過,但是發(fā)現(xiàn)在我這里使環(huán)境變量生效的是profile。

②運(yùn)行Mahout里自帶的K-Means算法,bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job,這里啟動后遇到了一點(diǎn)問題,提示Could not find math.vector,后來參考這篇http://jerrylead.VEvb.com/blog/1188929日志解決。

    4,結(jié)果

       在我的環(huán)境下運(yùn)行5分鐘左右,最后生成一個文件,如圖

Screenshot from 2013-11-21 21_09_41

    四、總結(jié)

Mahout是一個很強(qiáng)大的數(shù)據(jù)挖掘工具,需要進(jìn)行更深層的了解。

 

最新產(chǎn)品代理加盟


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 徐汇区| 桐乡市| 思南县| 镇赉县| 长宁区| 巫溪县| 西乌珠穆沁旗| 双城市| 子洲县| 射阳县| 黑山县| 上犹县| 平远县| 芒康县| 四会市| 大足县| 阳江市| 寿宁县| 榆中县| 临汾市| 南澳县| 久治县| 泸州市| 永登县| 深泽县| 宝应县| 鄂托克旗| 正镶白旗| 宜兰县| 海丰县| 吉水县| 肥东县| 南江县| 山阳县| 齐齐哈尔市| 甘德县| 日喀则市| 孟连| 河北区| 水富县| 陇南市|