教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)知識培訓:Hadoop的生態(tài)系統(tǒng)分別是什么?(上)

更新時間:2022年07月15日10時11分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

  隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)系統(tǒng)越來越完善,現(xiàn)如今已經(jīng)發(fā)展成一個龐大的生態(tài)體系,如圖1-3所示。

  從圖1-3中可以看出,Hadoop生態(tài)系統(tǒng)包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下。

Hadoop生態(tài)圈圖

  圖1-3 Hadoop生態(tài)圈

  1.分布式存儲系統(tǒng)(HDFS)

  HDFS是Hadoop分布式文件系統(tǒng)的簡稱,它是Hadoop生態(tài)系統(tǒng)中的核心項目之一,是分布式計算中數(shù)據(jù)存儲管理基礎。HDFS具有高容錯性的數(shù)據(jù)備份機制,它能檢測和應對硬件故障,并在低成本的通用硬件上運行。另外,HDFS具備流式的數(shù)據(jù)訪問特點,提供高吞吐量應用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應用程序。

  2.MapReduce分布式計算框架

  MapReduce是一種計算模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。“Map”對數(shù)據(jù)集上的獨立元素進行指定的操作,生成鍵值對形式中間結果;“Reduce”則對中間結果中相同“鍵”的所有“值”進行規(guī)約,以得到最終結果。MapReduce這種“分而治之”的思想,極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。

  3.YARN資源管理平臺

  YARN資源管理平臺(Yet Another Resource Negotiator)是Hadoop2.0中的資源管理器,它可為上層應用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

  4.Sqoop數(shù)據(jù)遷移工具

  Sqoop是一款開源的數(shù)據(jù)導入導出工具,主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的轉(zhuǎn)換,它可以將一個關系數(shù)據(jù)庫(例如,MySQL、Oracle等)中的數(shù)據(jù)導入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導出到關系數(shù)據(jù)庫中,使數(shù)據(jù)遷移變得非常方便。

  5.Mahout數(shù)據(jù)挖掘算法庫

  Mahout數(shù)據(jù)挖掘算法庫是Apache旗下的一個開源項目,它提供了一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用Apache Hadoop庫,Mahout可以有效地擴展到云中。

0 分享到:
和我們在線交談!