SEO基礎(chǔ)篇:robots寫法 |
發(fā)布時(shí)間: 2012/9/14 12:34:38 |
那個(gè)解釋robots寫法的東西是什么?求解答 謝謝。相信很多新手剛接觸SEO時(shí)都會(huì)產(chǎn)生這樣的一些疑問如:什么是robots.txt文件?robots文件應(yīng)該什么寫?robots.txt文件在SEO優(yōu)化中有什么作用呢?.....
今天上海瀟然孤雁飛就和大家一些來溫習(xí)一下SEO基礎(chǔ)知識(shí):robots.txt文件的寫法。 1. robots.txt的定義 robots.txt只是一個(gè)協(xié)議,而不是一個(gè)命令。robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。 當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。 百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。 2. robots.txt存放的位置 robots.txt必須放置在你網(wǎng)站空間的根目錄下,而且文件名必須全部小寫。 例如 路徑如下: http://www.xlfseo.com/robots.txt 3. robots.txt文件在SEO中作用 搜索引擎通過一種爬蟲spider程序(又稱搜索蜘蛛、robot、搜索機(jī)器人等),自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關(guān)信息。 鑒于網(wǎng)絡(luò)安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議。通過根目錄中創(chuàng)建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪問的部分。每個(gè)網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內(nèi)容。當(dāng)一個(gè)搜索引擎的爬蟲訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲就沿著鏈接抓取,如果存在,爬蟲就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍。 我們?cè)谶M(jìn)行網(wǎng)站優(yōu)化的時(shí)候,如新站剛上線網(wǎng)站內(nèi)容暫末完善或者一些錯(cuò)誤的文章,或機(jī)密的文件如會(huì)員信息,產(chǎn)品報(bào)價(jià)等,不想讓搜索引擎抓取,這就需要設(shè)置robots文件把一些內(nèi)容屏敝告訴搜索引擎不要抓取那些隱私。 4. robots.txt文件的寫法 語法:最簡(jiǎn)單的 robots.txt 文件使用兩條規(guī)則: User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符 5. robots.txt書寫典型案例 1). 淘寶網(wǎng)屏蔽百度 2008年9月8日淘寶網(wǎng)正式向百度宣戰(zhàn):淘寶網(wǎng)將屏蔽百度的搜索引擎抓取,這是國(guó)內(nèi)首家大型商業(yè)網(wǎng)站公開宣稱屏蔽搜索引擎的信息抓取。淘寶網(wǎng)新聞發(fā)言人盧先生對(duì)《第一財(cái)經(jīng)日?qǐng)?bào)》表示,淘寶是完全屏蔽百度,但只屏蔽谷歌很小一部分。“淘寶一直以來,都會(huì)對(duì)搜索引擎實(shí)施不同程度的屏蔽,以保護(hù)用戶信息、商品信息等商業(yè)數(shù)據(jù),對(duì)百度如此,對(duì)谷歌也一樣。”
淘寶網(wǎng)的 robots.txt文件書寫格式:
2. seowhy搜外 robots.txt文件書寫格式:
5. robots.txt書寫注意事項(xiàng) 1) robots文件中的內(nèi)容的大小寫不可更改,Disallow后面的冒號(hào)必須為英文狀態(tài)的。 2).你希望網(wǎng)站上所有的文件都需要被蜘蛛抓取,如果沒有添加robots.txt文件了, 搜索蜘蛛將默認(rèn)能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。 3).網(wǎng)站中的腳本程序、樣式表等文件即使被蜘蛛收錄,也不會(huì)增加網(wǎng)站的收錄率,還只會(huì)占用服務(wù)器存儲(chǔ)空間。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引腳本程序、樣式表等文件,具體哪些文件需要排除。 4).合理使用robots.txt文件還能避免訪問時(shí)出錯(cuò)。比如,不能讓搜索者直接進(jìn)入購(gòu)物車頁面。因?yàn)闆]有理由使購(gòu)物車被收錄,所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購(gòu)物車頁面。 5).如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁,并且你為這些動(dòng)態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁被蜘蛛索引,以保證這些網(wǎng)頁不會(huì)被視為含重復(fù)內(nèi)容。 6).每當(dāng)用戶試圖訪問某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無法找到文件)。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt。 6.robots.txt生成工具 一些新手SEO如果對(duì)于以上的內(nèi)容還有一些疑問,瀟然孤雁飛在為大家分享一款傻瓜化的生成Robots.txt工具,在線直接生成。
本文出自:億恩科技【www.riomediacenter.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |