Hadoop是最流行的開源批處理大數據平臺。它的核心技術有分布式的文件管理系統HDFS、基于鍵值對Key/Value Pair分布式并行計算模型MapReduce、數據結構化管理組件HBase、分布式的應用程序協調服務Zookeeper。

Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,目前已經是Apache的一個子項目。6、分布式消息訂閱工具KafkaKafka是一個消息發布訂閱系統,采用scala語言編寫。Kafka通過Zookeeper管理集群配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Producer使用push模式將消息發布到broker,Consumer使用pull模式從broker訂閱并消費消息。7、NoSQL技術及云數據庫NoSQL,全稱是"Not Only Sql",指的是非關系型的數據庫。這類數據庫主要有這些特點:非關系型的、分布式的、開源的、水平可擴展的。原始的目的是為了大規模web應用。NoSQL 的擁護者們提倡運用非關系型的數據存儲,通常的應用如:模式自由、支持簡易復制、簡單的API、最終的一致性(非ACID)、大容量數據等。最典型的七個NoSQL工具有PostgreSQL、Riak、Apache HBase、MongoDB、Apache CouchDB、Redis和Neo4J 。8、大數據中的類SQL工具Hive是一個構建在Hadoop上的數據倉庫框架,可以將結構化的數據文件,映射為一張數據庫表,并提供完整的sql查詢功能,并轉換為MapReduce任務進行運行。
Spark SQL與傳統DBMS的查詢優化器+執行器的架構較為類似。9、大數據挖掘工具Mahout和MLlibMLlib是Spark對常用的數據挖掘算法的實現庫,同時包括相關測試和數據生成器。Mahout 包含許多實現,包括集群、分類、CF 和進化程序。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。10、資源虛擬化工具DockerDocker是實現輕量級的操作系統虛擬化解決方案。
Docker 的基礎是 linux 容器(LXC)等技術。在 LXC 的基礎上 Docker 進行了進一步的封裝,讓用戶不需要去關心容器的管理,使得操作更為簡便。作為一種新興的虛擬化方式,Docker 跟傳統的虛擬化方式相比具有眾多的優勢。首先,Docker 容器的啟動可以在秒級實現,這相比傳統的虛擬機方式要快得多。 其次,Docker 對系統資源的利用率很高,一臺主機上可以同時運行數千個 Docker 容器。版權聲明:每一篇文章都是作者的勞動所得,轉載請注明出處!中科院計算所培訓中心專注公開課和企業內訓,設有大數據,軍方軟件,系統架構,軟件需求分析,項目管理等高端課程。更多課程介紹可以加入我們的高端公開課交流群209943365,期待我們共同進步!新聞熱點
疑難解答