百度竟然采集搜狐的內(nèi)容 |
發(fā)布時(shí)間: 2012/9/5 12:02:01 |
劉秀高今天在搜索的時(shí)候,無(wú)意中發(fā)現(xiàn)"小說(shuō)"這個(gè)詞排名第8的站,網(wǎng)站描述非常簡(jiǎn)單:“含各類小說(shuō)作品,包括武俠、言情、玄幻等作品。” 按常理來(lái)說(shuō),這種超級(jí)熱門的詞,站長(zhǎng)應(yīng)該懂點(diǎn)seo和簡(jiǎn)單的優(yōu)化,不應(yīng)該連網(wǎng)站的描述標(biāo)簽都寫(xiě)不好,這么簡(jiǎn)單。于是,我想是不是百度采用了DMOZ的網(wǎng)站描述,大家都知道Dmoz被多數(shù)主要搜索引擎所采用。但是到dmoz搜索了一下2100book.com,發(fā)現(xiàn)這個(gè)網(wǎng)站并沒(méi)有被收錄。 然后我打開(kāi)這個(gè)網(wǎng)站看了下,其主要標(biāo)簽寫(xiě)法如下: <meta name="ROBOTS" content="NOODP"> 描述標(biāo)簽并不是百度采用描述那樣,有<meta name="ROBOTS" content="NOODP">這個(gè)標(biāo)簽,說(shuō)明站長(zhǎng)也以為百度是采用的ODP描述,所以加了這個(gè)代碼,但是事實(shí)上卻不是。然后我查看源文件,搜索了下 含各類小說(shuō)作品,包括武俠、言情、玄幻等作品 這句話,發(fā)現(xiàn)頁(yè)面上并沒(méi)有。 既然百度既沒(méi)有采用網(wǎng)站寫(xiě)的描述,也沒(méi)有抓取頁(yè)面上的內(nèi)容作描述,更不是dmoz的描述,那這句網(wǎng)站描述是怎么來(lái)的呢。 于是,我到技術(shù)最強(qiáng)大的google搜索,google了一把, 搜索 "含各類小說(shuō)作品,包括武俠、言情、玄幻等作品。",注意帶雙引號(hào),意思是完整匹配,發(fā)現(xiàn)第一個(gè)結(jié)果就是小說(shuō)文學(xué)搜狐分類目錄,其他的就是一些小網(wǎng)站和個(gè)人博客了。百度當(dāng)然不可能去采用哪些小網(wǎng)站的內(nèi)容,唯一的可能就是采用了搜狐的分類目錄。 我再?gòu)倪@里選取了一些網(wǎng)站來(lái)百度搜索網(wǎng)站名字,發(fā)現(xiàn)百度的描述果然用的搜狐的。有個(gè)別不一樣的,我推測(cè)可能是這個(gè)原因,百度只是一次抓取了搜狐的分類目錄內(nèi)容,并沒(méi)有隨之更新,而搜狐的分類是不斷添加內(nèi)容的,也就是說(shuō),描述不相同的網(wǎng)站是百度抓取搜狐分類目錄的時(shí)候,還沒(méi)有登陸進(jìn)來(lái)。 大家可以來(lái)測(cè)試下,看看我的推斷是否準(zhǔn)確。 劉秀高原創(chuàng),首發(fā)于上海seo,轉(zhuǎn)載必須以鏈接形式注明出處。本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |