大數(shù)據(jù)的特征有哪些?一般認(rèn)為,大數(shù)據(jù)主要具有以下4個方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價值(Value),即所謂的4V,接下來,通過一張圖來具休描述。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-02-01 |傳智教育 |大數(shù)據(jù)有哪些特征
大數(shù)據(jù)是什么意思?什么是大數(shù)據(jù)?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。大數(shù)據(jù)的計量單位已經(jīng)越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB級別。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-02-01 |傳智教育 |大數(shù)據(jù)是什么意思,什么是大數(shù)據(jù)?
RDD的分區(qū)原則是分區(qū)的個數(shù)盡量等于集群中的CPU核心(Core)數(shù)目。對于不同的Spark部署模式而言,都可以通過設(shè)置spark.default.prallien這個參數(shù)值來配置默認(rèn)的分區(qū)數(shù)目。一般而言,各種模式下的默認(rèn)分區(qū)數(shù)目如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-29 |傳智教育 |RDD分區(qū)
分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(層),然后再從每一一層內(nèi)進(jìn)行獨(dú)立取樣,組成一個樣本的統(tǒng)計學(xué)計算方法,接下來,通過Spark-Shell演示分層抽樣方法,具體代碼如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-29 |傳智教育 |Spark MLlib分層抽樣,什么是分層抽樣
當(dāng)MySQL表中的數(shù)據(jù)發(fā)生了新增或修改變化,需要更新HDFS上對應(yīng)的數(shù)據(jù)時,就可以使用Sqoop的增量導(dǎo)入功能。Sqoop目前支持兩種增量導(dǎo)入模式:append模式和lastmodified模式。其中,append模式主要針對INSERT新增數(shù)據(jù)的增量導(dǎo)入;lastmodified模式主要針對UPDATE修改數(shù)據(jù)的增量導(dǎo)入。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |Sqoop增量導(dǎo)入,MySQL導(dǎo)入數(shù)據(jù)
安裝配置Sqoop,前提是部署Sqoop工具的機(jī)器需要具備Java和Hadoop的運(yùn)行環(huán)境首先將下載好的安裝包上傳至hadoop01主節(jié)點(diǎn)的/export/software目錄中,并解壓至/export/servers路徑下,然后對解壓包進(jìn)行重命名,具體指令如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |Sqoop,Sqoop的安裝和配置
Reduce大致分為copy、sort、reduce三個階段,重點(diǎn)在前兩個階段。Copy階段,簡單地拉取數(shù)據(jù)。Reduce進(jìn)程啟動一些數(shù)據(jù)copy線程(Fetcher),通過HTTP方式請求maptask 獲取屬于自己的文件。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |ReduceTask的工作機(jī)制
完成Scala環(huán)境和IDEA工具的安裝。接下來,就通過打印“Hello World”的例子來演示如何使用IDEA工具開發(fā)Scala程序,具體步驟如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-25 |傳智教育 |開發(fā)Scala程序的步驟