更新時間:2020年09月29日11時13分 來源:傳智播客 瀏覽次數(shù):
說到Python中的開源爬蟲框架,Scrapy是最先被大家提及的,這是一個相對成熟的框架,有著豐富的文檔和開放的社區(qū)交流空間。相對于Scrapy來說,PySpider算是一個新秀,但是不容小覷。下面說一下PySpider的具體特性:
1)Python腳本控制,可以用任何你喜歡的html解析包(內(nèi)置pyquery)。
2)Web界面編寫調(diào)試腳本、起停腳本、監(jiān)控執(zhí)行狀態(tài)、查看活動歷史、獲取結(jié)果產(chǎn)出。
3)支持MySQL、MongoDB、Redis、SQLite等數(shù)據(jù)庫。
4)支持抓取JavaScript的頁面。
5)組件可替換,支持單機(jī)/分布式部署,支持Docker部署。
6)強(qiáng)大的調(diào)度控制。
7)支持RabbitMQ、Beanstalk、Redis和Kombu作為消息隊列。
Pyspider和Scrapy有什么區(qū)別?
從內(nèi)容上來說,兩者具有的功能差不多,但還是有一些不同:
·原生的Scrapy并不支持js渲染,需要單獨(dú)下載scrapy-splash進(jìn)行配置,而PySpider則支持phantomjs第三方渲染。 ·PySpider內(nèi)置pyquery選擇器,Scrapy有XPath和CSS選擇器。
·Scrapy全部采用命令行操作,PySpider有較好的WebUI,更加直觀。
·PySpider易于調(diào)試,Scrapy調(diào)試方式稍顯復(fù)雜,并不直觀。
·Scrapy擴(kuò)展性更強(qiáng),可以自定義功能,PySpider這方面稍顯不足。
以上兩種框架各有各的風(fēng)格,總體來說PySpider使用更加簡單,可以快速上手,適合工程化生產(chǎn)爬蟲,而Scrapy適合用來進(jìn)行二次開發(fā),根據(jù)項目需求進(jìn)行自定義拓展。
猜你喜歡: