更新時(shí)間:2022年08月18日09時(shí)58分 來(lái)源:傳智教育 瀏覽次數(shù):
網(wǎng)絡(luò)爬蟲(chóng)歷經(jīng)幾十年的發(fā)展,技術(shù)變得更加多樣化,并結(jié)合不同的需求衍生出類型眾多的網(wǎng)絡(luò)爬蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)大致可以分為4種類型,分別是通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)。接下來(lái),對(duì)增量式爬蟲(chóng)和深層網(wǎng)絡(luò)爬蟲(chóng)這兩種爬蟲(chóng)分別進(jìn)行介紹。
1.增量式爬蟲(chóng)
增量式網(wǎng)終爬蟲(chóng)(Incremental Web Crawler)是指對(duì)已下載的網(wǎng)頁(yè)采取增量式更新,只抓取新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲(chóng)。增量式網(wǎng)絡(luò)爬蟲(chóng)只會(huì)抓取新產(chǎn)生的或內(nèi)容變化的網(wǎng)頁(yè),并不會(huì)重新抓取內(nèi)容未發(fā)生變化的網(wǎng)頁(yè),這樣可以有效地減少網(wǎng)頁(yè)的下載量,減少訪問(wèn)時(shí)間和存儲(chǔ)空間的耗費(fèi),但是增加了網(wǎng)頁(yè)抓取算法的復(fù)雜度和實(shí)現(xiàn)難度。
2.深層爬蟲(chóng)
深層網(wǎng)絡(luò)爬蟲(chóng)(Deep Web Crawler)是指抓取深層網(wǎng)頃的網(wǎng)絡(luò)爬蟲(chóng),它要抓取的網(wǎng)頁(yè)層次比較深,需要通過(guò)一定的附加策略才能夠自動(dòng)抓取,實(shí)現(xiàn)難度較大。
表層網(wǎng)頁(yè)與深層網(wǎng)頁(yè)
網(wǎng)頁(yè)按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web),關(guān)于這兩類網(wǎng)頁(yè)的介紹如下。
表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面,主要以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)構(gòu)成的網(wǎng)頁(yè)。
深層網(wǎng)頁(yè)是指大部分內(nèi)容無(wú)法通過(guò)靜態(tài)鏈接獲取的,只能通過(guò)用戶提交一些關(guān)鍵詞才能獲取的網(wǎng)頁(yè),如用戶注冊(cè)后內(nèi)容才可見(jiàn)的網(wǎng)頁(yè)。
北京校區(qū)