更新時間:2020年09月18日15時43分 來源:傳智播客 瀏覽次數(shù):
與通用爬蟲相比,聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接,并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止,如圖1所示。
相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標的描述或定義。我們需要根據(jù)爬取需求定義聚焦爬蟲的爬取目標,并進行相關(guān)的描述。
(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾。
(3) 對URL的搜索策略。
猜你喜歡: