文章內(nèi)容

百度是否支持“Crawl-delay”

發(fā)布時(shí)間: 2012/9/15 14:58:09

　Crawl-delay 可能很多做小站的朋友不了解，如果擁有大站的朋友可能用到過、但是超級牛站、比如新浪、我想就不會(huì)去考慮這個(gè)問題了。Crawl-delay 是Robots.txt中一個(gè)設(shè)置“蜘蛛”降低抓取頻度的參數(shù)，而很多大站可能由于被搜索引擎抓取頻繁加上用戶訪問流量過大，導(dǎo)致頁面加載慢(就是我們說的有點(diǎn)卡)。

　　而目前對于也只有YAHOO公開代表支持這個(gè)參數(shù)，具體可以參考：如何控制Yahoo! Slurp蜘蛛的抓取頻度

　　具體設(shè)置：

　　---------------------------

　　User-agent: *

　　Crawl-delay: 10

案例：http://www.blogbus.com/robots.txt (博客大巴)

　　而其它搜索引擎、目前還沒對這個(gè)參數(shù)進(jìn)行表明，不過通過各種數(shù)據(jù)來解釋、百度及谷歌應(yīng)該不會(huì)對這種參考過于說明! 因?yàn)樗麄兒茉缇鸵呀?jīng)考慮到這個(gè)問題。其中"百度站長俱樂部" 就LEE就說明：

　　問：蜘蛛大量抓取頁面導(dǎo)致服務(wù)器出現(xiàn)負(fù)載問題

　　答：會(huì)延遲百度對新網(wǎng)頁的收錄速度。

　　正常情況下，Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符，并不會(huì)給網(wǎng)站帶來很大的壓力。但現(xiàn)在網(wǎng)站結(jié)構(gòu)通常都比較復(fù)雜，多種url形式指向的可能是相同的內(nèi)容，或者會(huì)自動(dòng)產(chǎn)生大量無檢索價(jià)值的網(wǎng)頁。

　　我們目前發(fā)現(xiàn)的問題，主要來源于此，建議先分析一下spider的抓取日志，看看是否抓取了你不希望搜索引擎收錄的形式，如果有，robots掉它們可以節(jié)省大量的資源。

　　具體參考：http://tieba.baidu.com/club/9374916/p/7587693

其實(shí)LEE這里說明一個(gè)問題用robots可以禁止垃圾頁面/無效頁面（也就是說、我們可以通過IIS日志去分析、網(wǎng)站中抓取頻率最高、而又無用的頁面，并進(jìn)行屏蔽）但是這樣做只是為了增大收錄想被收錄頁面的機(jī)遇、同樣沒有解決抓取頻率過高問題。可能我沒有這種大站，但是DJ小向知道有效的控制蜘蛛抓取、可以使用網(wǎng)站增大收錄量、同樣有效的控制蜘蛛返回碼、同樣可以使網(wǎng)站被K。

------------------------------------

　　10月10號補(bǔ)充：

　　問：百度是否支持User-agent: Slurp

回：可以在robots中的crawl-delay中設(shè)置，這個(gè)參數(shù)是baidu spider對網(wǎng)站訪問頻率的重要參考信息之一，但spider系統(tǒng)會(huì)根據(jù)網(wǎng)站規(guī)模、質(zhì)量、更新頻度等多方面信息綜合計(jì)算得出最終的執(zhí)行壓力，因此并不保證嚴(yán)格遵守crawl-delay中的設(shè)置值。
本文出自：億恩科技【www.riomediacenter.com】

服務(wù)器租用/服務(wù)器托管中國五強(qiáng)！虛擬主機(jī)域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]