通用爬蟲(chóng)和聚焦爬蟲(chóng)介紹【Python技術(shù)文章】

更新時(shí)間:2021年06月09日14時(shí)52分來(lái)源:傳智教育瀏覽次數(shù):

根據(jù)使用場(chǎng)景，網(wǎng)絡(luò)爬蟲(chóng)可分為通用爬蟲(chóng)和聚焦爬蟲(chóng)兩種。通用爬蟲(chóng)是捜索引擎抓取系統(tǒng)（Baidu、Google、Yahoo等）的重要組成部分，主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。聚焦爬蟲(chóng)，是“面向特定主題需求”的一種網(wǎng)絡(luò)爬蟲(chóng)程序。接下來(lái)，就對(duì)這兩種爬蟲(chóng)分別進(jìn)行介紹。

1. 通用爬蟲(chóng)

通用爬蟲(chóng)又稱全網(wǎng)爬蟲(chóng)（Scalable Web Crawler），它將爬取對(duì)象從一些種子 URL擴(kuò)充到整個(gè)Web上的網(wǎng)站，主要用途是為門戶站點(diǎn)搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。

這類網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量巨大，對(duì)于爬行速度和存儲(chǔ)空間要求較高，對(duì)于爬行頁(yè)面的順序要求相對(duì)較低，同時(shí)由于待刷新的頁(yè)面太多，通常采用并行工作方式，但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。

2. 聚焦爬蟲(chóng)

聚焦爬蟲(chóng)（Focused Crawler），又稱主題網(wǎng)絡(luò)爬蟲(chóng)（Topical Crawler），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)的頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)。

和通用爬蟲(chóng)相比，聚焦爬蟲(chóng)只需要爬行與主題相關(guān)的頁(yè)面，從而極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁(yè)面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。

猜你喜歡：

多線程爬蟲(chóng)是什么？多線程爬蟲(chóng)流程分析

Python爬蟲(chóng)支持的網(wǎng)頁(yè)解析技術(shù)有哪些？

【Python面經(jīng)題】爬蟲(chóng)數(shù)據(jù)為什么選擇Mongodb存儲(chǔ)？

傳智教育python+大數(shù)據(jù)開(kāi)發(fā)培訓(xùn)

上一篇：Scrapy框架的運(yùn)行流程詳解 下一篇：數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)，數(shù)據(jù)倉(cāng)庫(kù)各部分詳細(xì)介紹