百度是否支持“Crawl-delay” |
發(fā)布時(shí)間: 2012/9/15 14:58:09 |
Crawl-delay 可能很多做小站的朋友不了解, 如果擁有大站的朋友可能用到過、但是超級牛站、比如新浪、我想就不會(huì)去考慮這個(gè)問題了。Crawl-delay 是Robots.txt中一個(gè)設(shè)置“蜘蛛”降低抓取頻度的參數(shù),而很多大站可能由于被搜索引擎抓取頻繁加上用戶訪問流量過大,導(dǎo)致頁面加載慢(就是我們說的有點(diǎn)卡)。
而目前對于也只有YAHOO公開代表支持這個(gè)參數(shù),具體可以參考:如何控制Yahoo! Slurp蜘蛛的抓取頻度
具體設(shè)置:
---------------------------
User-agent: *
Crawl-delay: 10
案例:http://www.blogbus.com/robots.txt (博客大巴)
而其它搜索引擎、目前還沒對這個(gè)參數(shù)進(jìn)行表明,不過通過各種數(shù)據(jù)來解釋、百度及谷歌應(yīng)該不會(huì)對這種參考過于說明! 因?yàn)樗麄兒茉缇鸵呀?jīng)考慮到這個(gè)問題。其中"百度站長俱樂部" 就LEE就說明:
問:蜘蛛大量抓取頁面導(dǎo)致服務(wù)器出現(xiàn)負(fù)載問題
答:會(huì)延遲百度對新網(wǎng)頁的收錄速度。
正常情況下,Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符,并不會(huì)給網(wǎng)站帶來很大的壓力。但現(xiàn)在網(wǎng)站結(jié)構(gòu)通常都比較復(fù)雜,多種url形式指向的可能是相同的內(nèi)容,或者會(huì)自動(dòng)產(chǎn)生大量無檢索價(jià)值的網(wǎng)頁。
我們目前發(fā)現(xiàn)的問題,主要來源于此,建議先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節(jié)省大量的資源。
具體參考:http://tieba.baidu.com/club/9374916/p/7587693
其實(shí)LEE這里說明一個(gè)問題用robots可以禁止垃圾頁面/無效頁面(也就是說、我們可以通過IIS日志去分析、網(wǎng)站中抓取頻率最高、而又無用的頁面,并進(jìn)行屏蔽)但是這樣做只是為了增大收錄想被收錄頁面的機(jī)遇、同樣沒有解決抓取頻率過高問題。 可能我沒有這種大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用網(wǎng)站增大收錄量、同樣有效的控制蜘蛛返回碼、同樣可以使網(wǎng)站被K。
------------------------------------
10月10號補(bǔ)充:
問:百度是否支持User-agent: Slurp
本文出自:億恩科技【www.riomediacenter.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |