在Spark中,不同的RDD之間具有依賴的關(guān)系。RDD與它所依賴的RDD的依賴關(guān)系有兩種類型,分別是窄依賴(narrow dependency)和寬依賴(wide dependency)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-05 |傳智教育 |spark RDD,RDD的兩種依賴關(guān)系
Spark Streaming提供了一個高級抽象的流,即DStream(離散流)。DStream表示連續(xù)的數(shù)據(jù)流,可以通過Kafka、Flume和Kinesis等數(shù)據(jù)源創(chuàng)建,也可以通過現(xiàn)有DStream的高級操作來創(chuàng)建。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-05 |傳智教育 |DStream,離散流,DStream是什么
Scala和Java類似,只允許繼承一個父類。不同的是,Java只能繼承父類中非私有的屬性和方法。而Scala可以繼承父類中的所有屬性和方法,子類擁有父類的所有特征。但是Scala在子類繼承父類的時候,有以下幾點(diǎn)需要注意: 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-30 |傳智教育 |scala子類繼承父類,scala繼承
HDFS采用主從架構(gòu)(Master/Slave架構(gòu))。HDFS集群分別是由一個NameNode和多個的 DataNode組成。其中,NameNode是HDFS集群的主節(jié)點(diǎn),負(fù)責(zé)管理文件系統(tǒng)的命名空間以及客戶端對文件的訪問;DataNode是集群的從節(jié)點(diǎn),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的數(shù)據(jù)存儲。HDFS分布式文件系統(tǒng)中的NameNode和DataNode兩種角色各司其職,共同協(xié)調(diào)完成分布式的文件存儲服務(wù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-30 |傳智教育 |HDFS,NameNode分布式文件系統(tǒng),儲存架構(gòu)
Hadoop是Apache基金會面向全球開源的產(chǎn)品之一,任何用戶都可以從Apache Hadoop 官網(wǎng)下載使用該產(chǎn)品。本書將以編寫時較為穩(wěn)定的Hadoop2.7.4版本為例,詳細(xì)講解Hadoop的安裝步驟。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-29 |傳智教育 |Hadoop安裝步驟,Hadoop安裝目錄的作用是什么
DAG(Directed Acyclic Graph)叫做有向無環(huán)圖,DAG是一種非常重要的圖論數(shù)據(jù)結(jié)構(gòu)。如果一個有向圖無法從任意頂點(diǎn)出發(fā)經(jīng)過若干條邊回到該點(diǎn),則這個圖就是有向無環(huán)圖,接下來通過幾個例子,我們來詳細(xì)了解下DAG有無環(huán)向圖。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-29 |傳智教育 |DAG,有無環(huán)向圖,什么是DAG
Spark Streaming支持從多種數(shù)據(jù)源獲取數(shù)據(jù),包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP Sockets數(shù)據(jù)源。當(dāng)Spark Streaming從數(shù)據(jù)源獲取數(shù)據(jù)之后,則可以使用諸如map、reduce、join和window等高級函數(shù)進(jìn)行復(fù)雜的計算處理,最后將處理的結(jié)果存儲到分布式文件系統(tǒng)、數(shù)據(jù)庫中為了可以深入的理解Spark Streaming,接下來,我們對對Spark Streaming的內(nèi)部工作原理進(jìn)行詳細(xì)講解。 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-28 |傳智教育 |Spark Streaming,Spark Streaming工作原理
從0開始學(xué)習(xí)大數(shù)據(jù)課程,想了解linux、kettle、BI、mysql、從基礎(chǔ)到實(shí)踐,通過知識點(diǎn) + 案例教學(xué)法幫助你想你想迅速掌握大數(shù)據(jù)。提取碼:ir0t 查看全文>>
大數(shù)據(jù)技術(shù)文章2020-12-23 |傳智教育 |大數(shù)據(jù)入門視頻教程