教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Robots協(xié)議是什么?Robots文件中選項的含義

更新時間:2022年08月25日10時38分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

Robots協(xié)議又稱爬蟲協(xié)議,它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,用于保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息,確保網(wǎng)站用戶的個人信息和隱私不受侵犯。為了讓網(wǎng)絡(luò)爬蟲了解網(wǎng)站的訪問范圍,網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的robots.txt文件,通過這個文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時存在哪些限制,哪些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。

當(dāng)網(wǎng)絡(luò)爬蟲訪問網(wǎng)站時,應(yīng)先檢查該網(wǎng)站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在,則網(wǎng)絡(luò)爬蟲會訪問該網(wǎng)站上所有被口令保護(hù)的頁面;若robots.txt文件存在,則網(wǎng)絡(luò)爬蟲會按照該文件的內(nèi)容確定訪問網(wǎng)站的范圍。

robots.txt文件中的內(nèi)容有著一套通用的寫作規(guī)范。下面以豆瓣網(wǎng)站根目錄下的robots.txt文件為例,分析robots.txt文件的語法規(guī)則。

User-agent: *
Disallow: /subject_search
…
Disallow: /share/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap:
https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google

robots.txt文件選項說明

User-agent:用于指定網(wǎng)絡(luò)爬蟲的名稱。若該選項的值為“*”,則說明robots.txt文件對任何網(wǎng)絡(luò)爬蟲均有效。帶有“*”號的User-agent選項只能出現(xiàn)一次。例如,示例的第一條語句User-agent:*。

Disallow:用于指定網(wǎng)絡(luò)爬蟲禁止訪問的目錄。若Disallow選項的內(nèi)容為空,說明網(wǎng)站的任何內(nèi)容都是被允許訪問的。在robots.txt文件中,至少要有一個包含Disallow選項的語句。例如,Disallow:/subject_search禁止網(wǎng)絡(luò)爬蟲訪問目錄/subject_search。

注意:Robots協(xié)議只是一個網(wǎng)站與網(wǎng)絡(luò)爬蟲之間達(dá)成的“君子”協(xié)議,它并不是計算機中的防火墻,沒有實際的約束力。如果把網(wǎng)站比作私人花園,那么robots.txt文件便是私人花園門口的告示牌,這個告示牌上寫有是否可以進(jìn)入花園,以及進(jìn)入花園后應(yīng)該遵守的規(guī)則,但告示牌并不是高高的圍欄,它只對遵守協(xié)議的“君子”有用,對于違背協(xié)議的人而言并沒有太大的作用。

盡管Robots協(xié)議沒有一定的強制約束力,但網(wǎng)絡(luò)爬蟲仍然要遵守協(xié)議,違背協(xié)議可能會存在一定的法律風(fēng)險。

0 分享到:
和我們在線交談!