Spark的集群安裝與配置簡(jiǎn)介【大數(shù)據(jù)技術(shù)文章】

更新時(shí)間:2020年10月29日14時(shí)00分來(lái)源:傳智播客瀏覽次數(shù):

以圖1所示的Spark集群為例，闡述Standalone模式下，Spark集群的安裝與配置方式。

圖1 Spark集群

　　從圖1可以看出，我們要規(guī)劃的Spark集群包含一臺(tái)Master節(jié)點(diǎn)和兩臺(tái)Slave節(jié)點(diǎn)。其中，主機(jī)名hadoop01是Master節(jié)點(diǎn)，hadoop02和hadoop03是Slave節(jié)點(diǎn)。
　　接下來(lái)，分步驟演示Spark集群的安裝與配置，具體如下。
　　1.下載Spark安裝包
　　? Spark是Apache基金會(huì)面向全球開(kāi)源的產(chǎn)品之一，用戶都可以從Apache Spark官網(wǎng)http://spark.apache.org/downloads.html下載使用。本書(shū)截稿時(shí)，Spark最新且穩(wěn)定的版本是2.3.2，所以本書(shū)將以Spark2.3.2版本為例介紹Spark的安裝。Spark安裝包下載頁(yè)面如圖2所示。

圖2 Spark安裝包下載

　　進(jìn)入Spark下載頁(yè)面，選擇基于“Pre-built for Apache Hadoop 2.7 and later”的Spark2.3.2版本，這樣做的目的是保證Spark版本與本書(shū)安裝的Hadoop版本對(duì)應(yīng)。
　　2.解壓Spark安裝包
　　首先將下載的[spark-2.3.2-bin-hadoop2.7.tgz](https://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz)安裝包上傳到主節(jié)點(diǎn)hadoop01的/export/software目錄下，然后解壓到/export/servers/目錄，解壓命令如下。
$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/
　　為了便于后面操作，我們使用mv命令將Spark的目錄重命名為spark，命令如下。
$ mv spark-2.3.2-bin-hadoop2.7/ spark
　　3.修改配置文件
　　(1)進(jìn)入spark/conf目錄修改Spark的配置文件spark-env.sh，將spark-env.sh.template配置模板文件復(fù)制一份并命名為spark-env.sh，具體命令如下。
$ cp spark-env.sh.template spark-env.sh
　　修改spark-env.sh文件，在該文件添加以下內(nèi)容：

　　上述添加的配置參數(shù)主要包括JDK環(huán)境變量、Master節(jié)點(diǎn)的IP地址和Master端口號(hào)，由于當(dāng)前節(jié)點(diǎn)服務(wù)器已經(jīng)在/etc/hosts文件配置了IP和主機(jī)名的映射關(guān)系，因此可以直接填寫主機(jī)名。
　　(2)復(fù)制slaves.template文件，并重命名為slaves，具體命令如下。
$ cp slaves.template slaves
　　? (3)通過(guò)“vi slaves”命令編輯slaves配置文件，主要是指定Spark集群中的從節(jié)點(diǎn)IP，由于在hosts文件中已經(jīng)配置了IP和主機(jī)名的映射關(guān)系，因此直接使用主機(jī)名代替IP，添加內(nèi)容如下。
　　hadoop02
　　hadoop03
　　? 上述添加的內(nèi)容，代表集群中的從節(jié)點(diǎn)為hadoop02和hadoop03。
　　4.分發(fā)文件
　　修改完成配置文件后，將spark目錄分發(fā)至hadoop02和hadoop03節(jié)點(diǎn)，具體命令如下。
　　$ scp -r /export/servers/spark/ hadoop02:/export/servers/
　　$ scp -r /export/servers/spark/ hadoop03:/export/servers/
　　至此，Spark集群配置完成了。
　　5.啟動(dòng)Spark集群
　　? Spark集群的啟動(dòng)方式和啟動(dòng)Hadoop集群方式類似，直接使用spark/sbin/start-all.sh腳本即可，在spark根目錄下執(zhí)行下列命令：
　　$ sbin/start-all.sh
　　? 執(zhí)行命令后，如果沒(méi)有提示異常錯(cuò)誤信息則表示啟動(dòng)成功，如圖3所示。

圖3 啟動(dòng)Spark集群

　　啟動(dòng)成功后，使用Jps命令查看進(jìn)程，如圖4所示。

圖4 查看集群進(jìn)程

　　從圖4可以看出，當(dāng)前hadoop01主機(jī)啟動(dòng)了Master進(jìn)程，hadoop02和hadoop03啟動(dòng)了Worker進(jìn)程，訪問(wèn)Spark管理界面http://hadoop01:8080來(lái)查看集群狀態(tài)(主節(jié)點(diǎn))，Spark集群管理界面如圖5所示。