linux下hadoop配置過程

2020-10-18 20:55:24

字體：大中小

來源：轉載

供稿：網友

1，安裝linux
本文假設從裸機開始，所以要先裝linux。本人是ubuntu對支持者，所以裝的是ubuntu，廢話沒有，很容易就裝好了。在安裝過程中，要注意所有節點對主機名應該有規律，比如node0, node1, node2 ...
2，準備
下面對軟件對安裝，全都使用了apt，這個軟件需要互聯網鏈接，如果你對網速極慢，或者根本鏈接不到外部網絡（這個現象在教育網內很常見），可以從一個能上網對ubuntu電腦上的/var/cache/apt/archives文件夾里deb文件出來安裝（什么？你問我這個文件夾里為什么沒有想要的包，這個文件夾是apt對緩存文件夾，想要里面有你想要對東西，不用我提醒你應該怎么辦了吧）。
ubuntu默認已經裝好了openssh-client，需要安裝openssh-server。命令如下：

復制代碼

代碼如下:

sudo apt-get install openssh-server

然后是jdk：

復制代碼

代碼如下:

sudo apt-get install default-jdk

3，配置網絡
如果你的節點們可以通過dhcp服務器獲得ip，我個人建議，這樣做，原因是簡單，不用怎么配置就搞定了。或者可以使用靜態ip，作為一個牛b的linux大牛，應該可以通過一行命令來設置靜態ip，但是我不會。我通常都是在gnome提供的網絡管理器來設ip對。如果你用對linux里沒有圖形界面，那樣請google。
設置好了ip地址之后，記憶在/etc/hosts文件中給每個節點起個名字，最好就是各自對主機名，這樣有利于下面對配置和管理。
hadoop要求各節點間可以不需要輸入密碼就能用ssh互相登錄。我使用了比官方方法簡單一點方法來設置，但是據說安全性有點兒問題。下面是方法：
在某個節點上執行如下命令：

復制代碼

代碼如下:

rm -rf ~/.ssh

復制代碼

代碼如下:

ssh-keygen -t rsa

這個命令之后需要多按幾次回車，知道再次出現命令提示符。當然，這個做法也不是很安全，里面有個輸入key的地方，官方的建議是，輸入一首歌的歌詞，呵呵，這個建議很搞笑。當然在我的步驟中，這個key就是空值了。

復制代碼

代碼如下:

cat ~/.ssh/id_rsa.pub >> authorized_keys

然后把整個.ssh文件夾考到所有對節點上，具體方法可以使用scp命令，具體命令由于和具體環境有關，下面不寫。

這樣網絡就設置對差不多了。
4，安裝hadoop
解壓，這個比較簡單，命令不寫。解壓對位置最好每個hadoop都一樣，不一樣有什么后果，我沒試過。
之后要進行一些配置，首先進入解壓后目錄對conf文件夾，要修改對配置文件包括hadoop-env.sh hadoop-site.xml masters slaves
hadoop-env.sh中要uncomment下面一行：

復制代碼

代碼如下:

export JAVA_HOME=/home/hadoop/jdk1.6.0_16/

當然具體的值，也要根據具體情況進行更改。
接下來是hadoop-site.xml，下面是我的文件內容。

復制代碼

代碼如下:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://node0:6000</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>node0:6001</value>
</property>
</configuratiron>

這個例子很直白，不解釋。

masters里面是jobtracker和namenode所在節點的主機名或者ip地址，我的masters文件里只有一行，當然如果你想要設置多個節點作為主節點，也可以。
slaves里面是所有tasktracker和datanode對主機名或ip地址。
5，運行
先進入hadoop安裝文件夾。然后依次運行如下命令：

復制代碼

代碼如下:

bin/hadoop namenode -format
bin/start-all.sh

不出意外的話，現在hadoop就可以使用了。

Hadoop是一個分布式系統基礎架構，由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，并且設計用來部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streaming access）文件系統中的數據。

上一篇：打造輕巧的 Linux 服務器的步驟

下一篇：linux系統安裝出錯提示this kernel requires an x86怎么辦？