无码视频在线观看,99人妻,国产午夜视频,久久久久国产一级毛片高清版新婚

  • 始創(chuàng)于2000年 股票代碼:831685
    咨詢(xún)熱線:0371-60135900 注冊(cè)有禮 登錄
    • 掛牌上市企業(yè)
    • 60秒人工響應(yīng)
    • 99.99%連通率
    • 7*24h人工
    • 故障100倍補(bǔ)償
    全部產(chǎn)品
    您的位置: 網(wǎng)站首頁(yè) > 幫助中心>文章內(nèi)容

    搜索引擎對(duì)重復(fù)頁(yè)面算法分析

    發(fā)布時(shí)間:  2012/9/15 14:58:31
    搜索引擎判斷復(fù)制網(wǎng)頁(yè)一般都基于這么一個(gè)思想:為每個(gè)網(wǎng)頁(yè)計(jì)算出一組信息指紋(Fingerprint),若兩個(gè)網(wǎng)頁(yè)有一定數(shù)量相同的信息指紋,則認(rèn)為這兩個(gè)網(wǎng)頁(yè)的內(nèi)容重疊性很高,也就是說(shuō)兩個(gè)網(wǎng)頁(yè)是內(nèi)容復(fù)制的。
     
    很多搜索引擎判斷內(nèi)容復(fù)制的方法都不太一樣,主要是以下兩點(diǎn)的不同:
     
    1、計(jì)算信息指紋(Fingerprint)的算法; 
    2、判斷信息指紋的相似程度的參數(shù)。
     
    在描述具體的算法前,先說(shuō)清楚兩點(diǎn): 
    1、什么是信息指紋?信息指紋就是把網(wǎng)頁(yè)里面正文信息,提取一定的信息,可以是關(guān)鍵字、詞、句子或者段落及其在網(wǎng)頁(yè)里面的權(quán)重等,對(duì)它進(jìn)行加密,如MD5加密,從而形成的一個(gè)字符串。信息指紋如同人的指紋,只要內(nèi)容不相同,信息指紋就不一樣。
     
    2、算法提取的信息不是針對(duì)整張網(wǎng)頁(yè),而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等信息(這些稱(chēng)之為網(wǎng)頁(yè)的“噪音”)過(guò)濾掉后剩下的文本。
     
    分段簽名算法
     
    這種算法是按照一定的規(guī)則把網(wǎng)頁(yè)切成N段,對(duì)每一段進(jìn)行簽名,形成每一段的信息指紋。如果這N個(gè)信息指紋里面有M個(gè)相同時(shí)(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
     
    這種算法對(duì)于小規(guī)模的判斷復(fù)制網(wǎng)頁(yè)是很好的一種算法,但是對(duì)于像google這樣海量的搜索引擎來(lái)說(shuō),算法的復(fù)雜度相當(dāng)高。
     
    基于關(guān)鍵詞的復(fù)制網(wǎng)頁(yè)算法
     
    像google這類(lèi)搜索引擎,他在抓取網(wǎng)頁(yè)的時(shí)候都會(huì)記下以下網(wǎng)頁(yè)信息:
     
    1、網(wǎng)頁(yè)中出現(xiàn)的關(guān)鍵詞(中文分詞技術(shù))以及每個(gè)關(guān)鍵詞的權(quán)重(關(guān)鍵詞密度); 
    2、提取meta descrīption或者每個(gè)網(wǎng)頁(yè)的512個(gè)字節(jié)的有效文字。 
    關(guān)于第2點(diǎn),baidu和google有所不同,google是提取你的meta descrīption,如果沒(méi)有查詢(xún)關(guān)鍵字相關(guān)的512個(gè)字節(jié),而百度是直接提取后者。這一點(diǎn)大家使用過(guò)的都有所體會(huì)。
     
    在以下算法描述中,我們約定幾個(gè)信息指紋變量:
     
    Pi表示第i個(gè)網(wǎng)頁(yè); 
    該網(wǎng)頁(yè)權(quán)重最高的N個(gè)關(guān)鍵詞構(gòu)成集合Ti={t1,t2,...tn},其對(duì)應(yīng)的權(quán)重為Wi={w1,w2,...wi} 
    摘要信息用Des(Pi)表示,前n個(gè)關(guān)鍵詞拼成的字符串用Con(Ti)表示,對(duì)這n個(gè)關(guān)鍵詞排序后形成的字符串用Sort(Ti)表示。
     
    以上信息指紋都用MD5函數(shù)進(jìn)行加密。
     
    基于關(guān)鍵詞的復(fù)制網(wǎng)頁(yè)算法有以下5種: 
    1、MD5(Des(Pi))=MD5(Des(Pj)),就是說(shuō)摘要信息完全一樣,i和j兩個(gè)網(wǎng)頁(yè)就認(rèn)為是復(fù)制網(wǎng)頁(yè); 
    2、MD5(Con(Ti))=MD5(Con(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)關(guān)鍵詞及其權(quán)重的排序一樣,就認(rèn)為是復(fù)制網(wǎng)頁(yè); 
    3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個(gè)網(wǎng)頁(yè)前n個(gè)關(guān)鍵詞一樣,權(quán)重可以不一樣,也認(rèn)為是復(fù)制網(wǎng)頁(yè)。 
    4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。 
    5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個(gè)闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁(yè)。
     
    關(guān)于第4和第5的那個(gè)闕值a,主要是因?yàn)榍耙粋(gè)判斷條件下,還是會(huì)有很多網(wǎng)頁(yè)被誤傷,搜索引擎開(kāi)發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié),防止誤傷。
     
     
    這個(gè)是北大天網(wǎng)搜索引擎的去重算法(可以參考:《搜索引擎--原理、技術(shù)與系統(tǒng)》一書(shū)),以上5種算法運(yùn)行的時(shí)候,算法的效果取決于N,就是關(guān)鍵詞數(shù)目的選取。當(dāng)然啦,選的數(shù)量越多,判斷就會(huì)越精確,但是誰(shuí)知而來(lái)的計(jì)算速度也會(huì)減慢下來(lái)。所以必須考慮一個(gè)計(jì)算速度和去重準(zhǔn)確率的平衡。據(jù)天網(wǎng)試驗(yàn)結(jié)果,10個(gè)左右關(guān)鍵詞最恰當(dāng)。 
     
    后記 
    以上肯定無(wú)法覆蓋一個(gè)大型搜索引擎復(fù)制網(wǎng)頁(yè)的所有方面,他們必定還有一些輔助的信息指紋判斷,本文作為一個(gè)思路,給做搜索引擎優(yōu)化的一個(gè)思路。    
    本文出自:億恩科技【mszdt.com】

    服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營(yíng)性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營(yíng)性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營(yíng)性ICP/ISP證:贛B2-20080012
  • 服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:0371-60135900
  • 虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:0371-60135900
  • 專(zhuān)注服務(wù)器托管17年
    掃掃關(guān)注-微信公眾號(hào)
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權(quán)所有  地址:鄭州市高新區(qū)翠竹街1號(hào)總部企業(yè)基地億恩大廈  法律顧問(wèn):河南亞太人律師事務(wù)所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號(hào)
      1
     
     
     
     

    0371-60135900
    7*24小時(shí)客服服務(wù)熱線