更新時間:2022年08月25日10時38分 來源:傳智教育 瀏覽次數(shù):
Robots協(xié)議又稱爬蟲協(xié)議,它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,用于保護網(wǎng)站數(shù)據(jù)和敏感信息,確保網(wǎng)站用戶的個人信息和隱私不受侵犯。為了讓網(wǎng)絡(luò)爬蟲了解網(wǎng)站的訪問范圍,網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的robots.txt文件,通過這個文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時存在哪些限制,哪些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。
當(dāng)網(wǎng)絡(luò)爬蟲訪問網(wǎng)站時,應(yīng)先檢查該網(wǎng)站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在,則網(wǎng)絡(luò)爬蟲會訪問該網(wǎng)站上所有被口令保護的頁面;若robots.txt文件存在,則網(wǎng)絡(luò)爬蟲會按照該文件的內(nèi)容確定訪問網(wǎng)站的范圍。
robots.txt文件中的內(nèi)容有著一套通用的寫作規(guī)范。下面以豆瓣網(wǎng)站根目錄下的robots.txt文件為例,分析robots.txt文件的語法規(guī)則。
User-agent: * Disallow: /subject_search … Disallow: /share/ Allow: /ads.txt Sitemap: https://www.douban.com/sitemap_index.xml Sitemap: https://www.douban.com/sitemap_updated_index.xml # Crawl-delay: 5 User-agent: Wandoujia Spider Disallow: / User-agent: Mediapartners-Google
robots.txt文件選項說明
User-agent:用于指定網(wǎng)絡(luò)爬蟲的名稱。若該選項的值為“*”,則說明robots.txt文件對任何網(wǎng)絡(luò)爬蟲均有效。帶有“*”號的User-agent選項只能出現(xiàn)一次。例如,示例的第一條語句User-agent:*。
Disallow:用于指定網(wǎng)絡(luò)爬蟲禁止訪問的目錄。若Disallow選項的內(nèi)容為空,說明網(wǎng)站的任何內(nèi)容都是被允許訪問的。在robots.txt文件中,至少要有一個包含Disallow選項的語句。例如,Disallow:/subject_search禁止網(wǎng)絡(luò)爬蟲訪問目錄/subject_search。
注意:Robots協(xié)議只是一個網(wǎng)站與網(wǎng)絡(luò)爬蟲之間達成的“君子”協(xié)議,它并不是計算機中的防火墻,沒有實際的約束力。如果把網(wǎng)站比作私人花園,那么robots.txt文件便是私人花園門口的告示牌,這個告示牌上寫有是否可以進入花園,以及進入花園后應(yīng)該遵守的規(guī)則,但告示牌并不是高高的圍欄,它只對遵守協(xié)議的“君子”有用,對于違背協(xié)議的人而言并沒有太大的作用。
盡管Robots協(xié)議沒有一定的強制約束力,但網(wǎng)絡(luò)爬蟲仍然要遵守協(xié)議,違背協(xié)議可能會存在一定的法律風(fēng)險。