如何解決Google網(wǎng)站管理員工具的抓取錯誤 |
發(fā)布時間: 2012/9/10 11:37:29 |
“抓取錯誤”是 Google網(wǎng)站管理員工具(Webmaster Tools)中最受歡迎的工具之一。它可以幫助你檢查錯誤的鏈接,不僅僅是URL鏈接,還包行DNS解析失敗、服務器鏈接、robots.txt 文件等問題,幾乎所有網(wǎng)站都會出現(xiàn)抓取錯誤。
網(wǎng)站站長工具將錯誤分為兩類:網(wǎng)站錯誤(site errors)和鏈接地址錯誤(URL errors)。如果在一個網(wǎng)站上出現(xiàn)多個抓取錯誤,那么你的網(wǎng)站信任度會下降,甚至會影響到排名,當然這工具對于百度優(yōu)化同樣有效。那么應當如何解決Google網(wǎng)站管理員工具的抓取錯誤呢。
通過Googlebot抓取的錯誤分類就看知道是什么導致抓取錯誤的原因了。
一、HTTP的錯誤
當一個網(wǎng)站上的網(wǎng)頁(例如,當用戶在瀏覽器中訪問您的網(wǎng)頁或Googlebot抓取頁面時)到您的服務器發(fā)出請求,服務器返回HTTP狀態(tài)碼響應請求。
如果出現(xiàn)403狀態(tài),可以不用理睬,這表明是你的主機阻止了Googlebot抓取。對于所有HTTP狀態(tài)碼的列表文件,可以參考Google HTTP狀態(tài)碼幫助頁面。
二、Sitemap中的錯誤
Sitemap錯誤往往會造成404錯誤頁面,或在當前地圖返回一個404錯誤頁面,如果出現(xiàn)404錯誤頁面請檢查Sitemap中所有的鏈接,
Google會不斷抓取你已經(jīng)刪除的Sitemap,這點很郁悶,但也有辦法解決:確保舊的Sitemap已經(jīng)在管理員工具中被刪除。如果不想被抓取,確保舊Sitemap出現(xiàn)404或者重新定向到新的Sitemap。
來自Google員工Susan Moskwa解釋道:
阻止Googlebot的爬行,最好的辦法是使這些網(wǎng)址(例如舊的sitemaps)出現(xiàn)404,當我們看到一個URL多次出現(xiàn)404后,Googlebot會停止爬行。
三、重定向錯誤
有些錯誤是因為301從定向引起的,執(zhí)行重定向后要注意什么:
1:確保他們返回到正確的HTTP狀態(tài)碼。
2:確保沒有任何循環(huán)重定向。
3:確保重定向指向有效的網(wǎng)頁,而不是404頁,或其他錯誤頁,如503(服務器錯誤)或403(禁止抓取)
4:確保重定向不是指向一個空頁面。
四、404錯誤
404錯誤可能會出現(xiàn)在以下幾個方面:
1:刪除了網(wǎng)站上的網(wǎng)頁;
2:改變了網(wǎng)頁的名稱;
4:鏈接到了一個不存在的頁面;
5:其他網(wǎng)站鏈接到你網(wǎng)站上一個不存在的頁面;
6:網(wǎng)站遷移到一個新的域名不完全匹配的網(wǎng)站。
五、受robots.txt限制
還有一個原因是robots.txt文件阻止了Googlebot的抓取,如果出現(xiàn)大量抓取錯誤,第一步應該檢查robots.txt
六、軟404錯誤
通常情況下,當有人請求的頁面不存在,服務器將返回一個404(未找到)錯誤。除了在響應請求的頁面不存在返回404代碼,服務器也將顯示一個404頁。 這可能是一個標準的“未找到文件”的消息,或旨在提供更多信息的用戶,它可能是一個自定義頁面。 頁的內(nèi)容是由服務器返回的HTTP響應完全無關。僅僅因為一個頁面顯示404文件未找到消息并不意味著它是一個404頁。
七、超時
網(wǎng)站超時也是出現(xiàn)抓取錯誤的原因之一,如果出現(xiàn)超時現(xiàn)象,Googlebot會停止抓取。超時的錯誤類型有:
1:DNS超時,可以使用Nslookup 命令檢測DNS,出現(xiàn)DNS超時最大的因素是域名服務商的DNS服務器不穩(wěn)定。
2:網(wǎng)址超時,在某一個特定頁面,而不是整個域的錯誤。
3:robots.txt超時,如果你網(wǎng)站有robots.txt,但服務器超時,Googlebot會假定該文件不存在。
4:動態(tài)網(wǎng)頁的響應時間過長而造成網(wǎng)頁載入時間過長。 本文出自:億恩科技【mszdt.com】 |