更新時(shí)間:2021年10月21日10時(shí)08分 來(lái)源:傳智教育 瀏覽次數(shù):
Oozie是一個(gè)用來(lái)管理Hadoop生態(tài)圈job的工作流調(diào)度系統(tǒng)。由Cloudera公司貢獻(xiàn)給Apache。Oozie是運(yùn)行于Javaservlet容器上的一個(gè)javaweb應(yīng)用。Oozie的目的是按照DAG(有向無(wú)環(huán)圖)調(diào)度一系列的Map/Reduce或者Hive等任務(wù)。Oozie 工作流由hPDL(Hadoop Process Definition Language)定義(這是一種XML流程定義語(yǔ)言)。適用場(chǎng)景包括:
·需要按順序進(jìn)行一系列任務(wù);
·需要并行處理的任務(wù);
·需要定時(shí)、周期觸發(fā)的任務(wù);
·可視化作業(yè)流運(yùn)行過(guò)程;
運(yùn)行結(jié)果或異常的通報(bào)。
Oozie Client:提供命令行、java api、rest等方式,對(duì)Oozie的工作流流程的提交、啟動(dòng)、運(yùn)行等操作;
Oozie WebApp:即 Oozie Server,本質(zhì)是一個(gè)java應(yīng)用??梢允褂脙?nèi)置的web容器,也可以使用外置的web容器;
Hadoop Cluster:底層執(zhí)行Oozie編排流程的各個(gè)hadoop生態(tài)圈組件;
Oozie對(duì)工作流的編排,是基于workflow.xml文件來(lái)完成的。用戶預(yù)先將工作流執(zhí)行規(guī)則定制于workflow.xml文件中,并在job.properties配置相關(guān)的參數(shù),然后由Oozie Server向MR提交job來(lái)啟動(dòng)工作流。
工作流由兩種類型的節(jié)點(diǎn)組成,分別是:
Control Flow Nodes:控制工作流執(zhí)行路徑,包括start,end,kill,decision,fork,join。
Action Nodes:決定每個(gè)操作執(zhí)行的任務(wù)類型,包括MapReduce、java、hive、shell等。
添加QQ435946716,免費(fèi)獲取【全套Oozie從入門到精通教程+講義】。
猜你喜歡
什么是Kafka?Kafka誕生的背景是什么?
2021-10-06數(shù)據(jù)庫(kù)技術(shù)發(fā)展簡(jiǎn)史,3分鐘了解數(shù)據(jù)庫(kù)技術(shù)
2021-09-29Kafka基準(zhǔn)測(cè)試怎樣進(jìn)行?
2021-09-29什么是消息隊(duì)列?消息隊(duì)列有哪些應(yīng)用場(chǎng)景?
2021-09-28為什么前端埋點(diǎn)和后端埋點(diǎn)不能分開(kāi)使用?【數(shù)據(jù)埋點(diǎn)介紹】
2021-09-24什么是Cookie?怎樣設(shè)置和讀取Cookie?
2021-09-14北京校區(qū)