搜索引擎抓取不到的內(nèi)容有那些
沒(méi)有搜索引擎是萬(wàn)萬(wàn)不能的,但搜索引擎不是萬(wàn)能的;
有些內(nèi)容,網(wǎng)上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以設(shè)計(jì)更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最關(guān)鍵的一步。
----------------------------------------------------------------------------- 本文章轉(zhuǎn)載于互聯(lián)網(wǎng)某網(wǎng)站!
這樣的內(nèi)容,主要有3類(lèi):
======================
1、網(wǎng)上有,但是搜索引擎庫(kù)里沒(méi)有
------------------------------------------------------
1.1 spider未能正確處理的網(wǎng)頁(yè)性質(zhì)及文件類(lèi)型
(如flash、script、ps、某些動(dòng)態(tài)網(wǎng)頁(yè)及frame、數(shù)據(jù)庫(kù))
1.2 沒(méi)有指向鏈接的孤島網(wǎng)頁(yè)
1.3 spider訪(fǎng)問(wèn)時(shí)因?yàn)槟承┰蛘檬撬梨溄?/u>
1.4 被認(rèn)為是劣質(zhì)網(wǎng)頁(yè)而不抓
1.5 因?yàn)?色情/反動(dòng)/spam/等問(wèn)題而不抓的非法網(wǎng)頁(yè)
1.6 需要輸入用戶(hù)名、密碼方可打開(kāi)的網(wǎng)頁(yè)
1.7 網(wǎng)站用robots協(xié)議拒絕搜索引擎抓取的網(wǎng)頁(yè)
1.8 搜索引擎還未來(lái)得及抓取的新網(wǎng)頁(yè)
1.9 gopher、newsgroups、Telnet、ftp、wais等非http信息
1.10 網(wǎng)站數(shù)據(jù)庫(kù)做得太差勁,spider一抓就宕,只好不抓
2、搜索引擎庫(kù)里有,但是未能正確索引網(wǎng)頁(yè)中信息
------------------------------------------------------
2.1 分詞引起誤差
2.2 圖型中的文字信息你看得懂但搜索引擎看不懂
2.3 停用詞等搜索引擎故意不索引的信息
2.4 搜索引擎對(duì)某些網(wǎng)頁(yè)有選擇的索引,未索引全部網(wǎng)頁(yè)信息
3、搜索引擎正確索引了網(wǎng)頁(yè)中信息,但和你用的關(guān)鍵詞不同
-------------------------------------------------------
3.1 你用的搜索關(guān)鍵詞中含有錯(cuò)別字
3.2 網(wǎng)頁(yè)作者用了錯(cuò)別字
3.3 沒(méi)有錯(cuò)別字,但網(wǎng)頁(yè)作者用的詞匯和你的關(guān)鍵詞不同,畢竟,文字的特性,允許有n種方式表達(dá)同一種信息
3.4 簡(jiǎn)體繁體不同編碼
http://www.riomediacenter.com/ 本文出自:億恩科技【www.riomediacenter.com】
服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]
|