教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

ETL常見(jiàn)工具介紹:Pantlo Kertle、Howk、lormi PowerCene及DataStage

更新時(shí)間:2021年06月08日16時(shí)40分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

目前比較流行的ETL工具有Pantlo Kertle、Howk、lormi PowerCene及DataStage,對(duì)這些工具的介紹如下。


1. Pentaho Kettle

PenthoKetle是一款國(guó)外免費(fèi)開(kāi)源的ETL工具,純Java語(yǔ)言編寫,可以在Windows Linux.UNIX系統(tǒng)上運(yùn)行,并且是綠色無(wú)需安裝的。

Ketile的中文名稱叫水壺,該工具的設(shè)計(jì)理念是希望把來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)放到-個(gè)“壺”里,然后以一種指定的格式流出。 Ketle擁有兩種腳本文件,分別是Transtormtio(轉(zhuǎn)換)和Job(作業(yè)),其中Tronsformation是用于完成數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,而Job是完成整個(gè)工作流的控制。


2. Hawk

Hawk是一種數(shù)據(jù)采集和清洗工具,依據(jù)GPL(GNU通用公共許可證)協(xié)議開(kāi)源,基于C#語(yǔ)言編寫的,并且其前端界面使用WPF開(kāi)發(fā),支持插件擴(kuò)展。

Hawk的含義為“鷹”,能夠高效、準(zhǔn)確地捕殺獵物。也就是說(shuō),Hawk能夠靈活、有效地采集來(lái)自網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)和文件等來(lái)源的數(shù)據(jù),并通過(guò)可視化的拖曳操作快速地進(jìn)行生成、過(guò)濾及轉(zhuǎn)換等操作。Hawk 主要應(yīng)用于爬蟲(chóng)和數(shù)據(jù)清洗等領(lǐng)城。


3. Informatica PowerCenter

Intormatica PowerCenter 是Informatica公司開(kāi)發(fā)的世界級(jí)的企業(yè)數(shù)據(jù)集成平臺(tái),也是業(yè)界領(lǐng)先的ETL工具。Informatica PowerCenter用于訪問(wèn)和集成幾乎任何業(yè)務(wù)系統(tǒng)、任何格式的數(shù)據(jù),它可按任意速度在企業(yè)內(nèi)交付數(shù)據(jù),具有高性能、高可擴(kuò)展性、高可用性的特點(diǎn)。Informatica PowerCenter提供了多個(gè)可選的組件,以擴(kuò)展Informatica

PowerCenter的核心數(shù)據(jù)集成功能,這些組件包括數(shù)據(jù)清洗和匹配、數(shù)據(jù)屏蔽、數(shù)據(jù)驗(yàn)證、元數(shù)據(jù)交換等。


4. DataStage

IBM的InfoSphere DataStage簡(jiǎn)稱DataStage,它是一個(gè)領(lǐng)先的ETL平臺(tái),可跨多個(gè)企業(yè)系統(tǒng)集成數(shù)據(jù)。DataStage 利用高性能并行框架,可根據(jù)項(xiàng)目需求在云中或者本地部署ETL環(huán)境,它支持HBase、Hive、Amazon以及MongoDB等數(shù)據(jù)庫(kù)的連接,可以靈活、有效地更新和管理數(shù)據(jù)繼承的基礎(chǔ)架構(gòu)。



猜你喜歡:

Hadoop如何實(shí)現(xiàn)二次排序?

數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)詳細(xì)介紹

大數(shù)據(jù)Hadoop生態(tài)圈包含哪些子系統(tǒng)?

傳智教育高級(jí)python+大數(shù)據(jù)培訓(xùn)課程

0 分享到:
和我們?cè)诰€交談!