作為SEO從業者,不僅(jin)要被(bei)搜(sou)索引擎抓取,還(huan)要被(bei)收錄(lu),最(zui)重(zhong)要的(de)是在收錄(lu)后有良好的(de)排(pai)名(ming)(ming),本文將簡單分析下搜(sou)索引擎收錄(lu)網頁的(de)四個階(jie)段。每(mei)個網站、每(mei)個網頁的(de)排(pai)名(ming)(ming)都是不一樣的(de),看看你的(de)網站處于哪(na)個階(jie)段呢?
網(wang)頁收錄第一階段:大(da)小通吃
搜索引擎的(de)(de)網(wang)頁抓(zhua)(zhua)取都(dou)是采取「大(da)小通吃」的(de)(de)策略,也就(jiu)是把網(wang)頁中(zhong)能(neng)發現的(de)(de)鏈接逐一(yi)加入(ru)到待抓(zhua)(zhua)取URL中(zhong),機械性的(de)(de)將新抓(zhua)(zhua)取的(de)(de)網(wang)頁中(zhong)的(de)(de)URL提取出來,這種方式雖然比較(jiao)古老(lao),但(dan)效果很好,這就(jiu)是為(wei)什么很多站(zhan)長反應蜘蛛來訪問了,但(dan)沒有(you)收(shou)錄的(de)(de)原因,這僅僅是第一(yi)階段。
網(wang)頁收錄第二(er)階段:網(wang)頁評級(ji)
而第二階段則是(shi)對網頁(ye)的(de)重要性進行評級,PageRank是(shi)一種*的(de)鏈接分析算法,可以用來衡量網頁(ye)的(de)重要性,很自然(ran)的(de),站長(chang)可以用PageRank的(de)思路來對URL進行排序,這(zhe)就是(shi)各位熱衷(zhong)的(de)「發外(wai)鏈」,據一位朋友了解,在中國「發外(wai)鏈」這(zhe)個市場(chang)每年有上億元的(de)規模。
爬蟲(chong)的(de)目的(de)就是去下載網(wang)頁,但(dan)PageRank是個全局性算(suan)法(fa),也就是當所有網(wang)頁有下載完成(cheng)后(hou),其(qi)計算(suan)結果才是可(ke)(ke)靠的(de)。對于(yu)中(zhong)小網(wang)站來講,服務器如果質量不好(hao),如果在(zai)抓(zhua)取過(guo)程中(zhong),只看到(dao)部(bu)分(fen)內(nei)容,在(zai)抓(zhua)取階段是無法(fa)獲得(de)可(ke)(ke)靠的(de)PageRank得(de)分(fen)。
網(wang)頁收錄第三階段:OCIP策略
OCIP策(ce)略(lve)更(geng)像是PageRank算法的(de)(de)(de)(de)改(gai)進。在(zai)算法開(kai)始之前(qian),每個網頁(ye)都(dou)給(gei)予相同的(de)(de)(de)(de)「現(xian)金」,每當下(xia)載某個頁(ye)面A后,A將自己的(de)(de)(de)(de)「現(xian)金」平均(jun)分給(gei)頁(ye)面中包含的(de)(de)(de)(de)鏈(lian)接頁(ye)面,把自己的(de)(de)(de)(de)「現(xian)金」清空。這就(jiu)是為什么導出的(de)(de)(de)(de)鏈(lian)接越少,權重會越高的(de)(de)(de)(de)原(yuan)因之一。
而對于待(dai)抓取的(de)(de)網頁,會根(gen)據手頭擁有的(de)(de)現金(jin)多(duo)少排序,優先下載現金(jin)最充裕的(de)(de)網頁,OCIP大致與PageRank思路一致,區別在于:PageRank每(mei)次要迭(die)代計(ji)算,而OCIP則不需要,所以計(ji)算速度遠遠快于PageRank,適合實時計(ji)算使用。這可能就是(shi)為什么很多(duo)網頁會出現「秒收」的(de)(de)情況了。
網頁收錄第(di)四階段:大站(zhan)優先策略
大(da)(da)站(zhan)(zhan)(zhan)(zhan)(zhan)優先(xian)(xian)的(de)思路(lu)很(hen)直接,以(yi)網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)為(wei)單(dan)位來衡量網(wang)頁的(de)重要性,對于(yu)待(dai)抓取的(de)URL隊列中的(de)網(wang)頁,根(gen)據所(suo)述網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)歸類,如(ru)果哪個(ge)網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)等待(dai)下載的(de)頁面最多,則優先(xian)(xian)下載這(zhe)些(xie)鏈接。其(qi)本質(zhi)思想(xiang)是「傾(qing)向于(yu)優先(xian)(xian)下載大(da)(da)型網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)URL」。因為(wei)大(da)(da)型網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)往(wang)往(wang)包含(han)更多的(de)頁面。鑒于(yu)大(da)(da)型網(wang)站(zhan)(zhan)(zhan)(zhan)(zhan)往(wang)往(wang)是名站(zhan)(zhan)(zhan)(zhan)(zhan),其(qi)網(wang)頁質(zhi)量一般較高(gao),所(suo)以(yi)這(zhe)個(ge)思路(lu)雖然簡(jian)單(dan),但有一定依(yi)據。
實驗(yan)表明這(zhe)個算(suan)法(fa)雖然(ran)簡單粗(cu)暴,但卻(que)能(neng)收錄高質量網頁,很有效果。這(zhe)也是為什么許多網站的內容被轉(zhuan)載后,大站卻(que)能(neng)排到你前面的最重要原因之一(yi)
轉載://citymember.cn/zixun_detail/3234.html