關(guān)于網(wǎng)站日志中的不完整url或莫名其妙的url抓取 |
發(fā)布時(shí)間: 2012/9/14 10:53:31 |
在分析日志的過(guò)程中,往往會(huì)發(fā)現(xiàn)404狀態(tài)下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的網(wǎng)站本身不存在的url的抓取。在群里面也見(jiàn)有人問(wèn)過(guò)類似的情況,覺(jué)得這是一個(gè)大家普遍都會(huì)遇見(jiàn)的問(wèn)題,有猜測(cè)過(guò)有可能是被別人采集才導(dǎo)致這樣的問(wèn)題出現(xiàn),在上課的時(shí)候問(wèn)過(guò)國(guó)平老大,當(dāng)時(shí)國(guó)平老大說(shuō)有可能是爬蟲在抓取url的時(shí)候下載不完整,但是這都沒(méi)有一個(gè)具體的數(shù)據(jù)來(lái)支撐,總是覺(jué)得很朦朧沒(méi)把握。
現(xiàn)在,google管理員工具可以很清晰的用數(shù)據(jù)為你揭曉這其中的詫異了,google管理員工具是國(guó)平老大非常推崇的一個(gè)seo工具,有人覺(jué)得做百度的人不需要google的東西,因?yàn)榘俣群蚲oogle的算法有差別,那下面介紹google管理員的這個(gè)功能可以告訴你這樣的想法是大錯(cuò)特錯(cuò)的,管理員工具是一個(gè)按照網(wǎng)站seo各項(xiàng)考核標(biāo)準(zhǔn)制定的一個(gè)最最權(quán)威的seo工具,做seo需要的數(shù)據(jù),絕大部分都可以從這里面獲取,下面就來(lái)介紹管理員工具的這個(gè)功能(好像是最近更新的,以前不是這樣子)。 首頁(yè)看下百度日志里面的怪異404 這些url的入口在哪里呢?搜索引擎是從什么地方獲取這些url的? Google告訴你 首先介紹下google管理員工具關(guān)于抓取錯(cuò)誤的功能 下面是另一個(gè)網(wǎng)站由于改版問(wèn)題沒(méi)做跳轉(zhuǎn)和抓取攔截所造成的找不到抓取錯(cuò)誤,有一很完整的曲線可以讓你很清晰的看見(jiàn)網(wǎng)站存在的這方面的問(wèn)題的變化趨勢(shì) 和服務(wù)器問(wèn)題造成的抓取錯(cuò)誤 接第一張圖(同一個(gè)網(wǎng)站) 一開(kāi)始從日志中觀察到這些錯(cuò)誤,但是不知道這些錯(cuò)誤的來(lái)源 現(xiàn)在可以知道這些錯(cuò)誤的url是從何而來(lái) 點(diǎn)擊第102條,彈出下面的框,url不在sitemap中,但是在自己的其他網(wǎng)站里面出現(xiàn),說(shuō)明網(wǎng)址是網(wǎng)站自身存在的但是已經(jīng)被刪除了 點(diǎn)擊第110條,彈出下面的框,可以看到搜索引擎是從其他網(wǎng)站過(guò)來(lái)的(或是采集站,或是其他) 點(diǎn)擊進(jìn)入具體的來(lái)源頁(yè)面可以看到 至此,可以很明確的知道,到底網(wǎng)站日志里面的出現(xiàn)的那些莫名其妙的url到底是怎么回事了,是自己站內(nèi)存在的還是站外錯(cuò)誤構(gòu)成的。最近更新的還有其他的功能,感興趣的朋友可以親自用用體驗(yàn)下。本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |