SEO案例:SEO是如何依賴技術分析的 |
發(fā)布時間: 2012/9/14 15:14:02 |
我前面的文章,都是從技術角度出發(fā)來做SEO的。這篇文章就再舉幾個例子,來說明一下做SEO為什么要依賴技術分析的。另外寫這篇文章還出于我一直以來的一個想法,就是我一直都很想贊揚一下07年之前阿里巴巴某些做SEO的同事,他們很早就在SEO領域做出了非常多好的實踐,也給網(wǎng)站做出了很大的貢獻。
07年以前的阿里巴巴,經(jīng)過幾年的努力,已經(jīng)把SEO做到了一個很高的境界。大家那時可能還只關注國內中文版的阿里巴巴,稱“google是阿里巴巴的站內搜索引擎”。其實阿里巴巴國際站在國外同行當中的表現(xiàn)要更加優(yōu)秀。當時很多產(chǎn)品類詞語,排在首頁的10個結果當中就可能會有6個是阿里巴巴國際站的。
當時領導SEO團隊的人員是做技術出生,所以大家大量借助技術手段來分析和解決SEO當中出現(xiàn)的很多問題,取得了很好的效果。
因為涉及到現(xiàn)有的業(yè)務,只能說幾個不那么敏感的例子。
Google 網(wǎng)站管理員工具剛出來的時候,我們網(wǎng)站有很多頻道都驗證不了那個google需要你上傳的文件。工程師那邊幫助查了很多問題,以為是什么跳轉之類的沒有做好。查了很多資料,也沒有找到特征吻合的相關解決辦法。而meta驗證的方法因為技術上有一點問題做不了。
所以我們SEO團隊就幫工程師去找問題。我同事瞿波不一會就找出問題出在什么地方了,原來問題出在泛解析上。
具體的過程是這樣的:
用了泛解析的url,無論你把url組合成一個什么樣子,都會有一個正常的頁面給你的。比如:如果你網(wǎng)站的根目錄下用了泛解析,http://www.xxxxxx.com/a.html 這個url是你網(wǎng)站本來正常的url。那么你隨意的輸入一個本來不存在的url 如 http://www.xxxxxx.com/adasdsadw.html 甚至 http://www.xxxxxx.com/@####¥¥.html ,網(wǎng)站CMS返回的都是一個正常的頁面。
這在一個大型網(wǎng)站中,很多地方出于業(yè)務需要,都是這么處理的。但是這樣做,在“網(wǎng)站管理員工具”的驗證方面就一定不能通過。為什么呢?
因為這樣誰都可以把這個網(wǎng)站加到自己的網(wǎng)站管理員工具中。比如:www.made-in-china.com 根目錄如果用了泛解析,我把這個網(wǎng)站添加到我的“網(wǎng)站管理員工具”里,系統(tǒng)要我驗證一下 http://www.made-in-china.com/google15c03c9b508311f6.html 這個文件是不是存在的時候,因為有泛解析,這個文件是一定存在的,那么我就成功把這個本不屬于我的網(wǎng)站加到我的“網(wǎng)站管理員工具”里了。我可以隨意更改里面的很多設置。
而實際上這樣的情況是不會發(fā)生的,因為google不光會驗證你上傳的文件存不存在,還會驗證一個不應該存在的文件是不是不存在。google驗證完你上傳的文件后,接著會模擬一個叫做 google404errorpage.html 的頁面是不是不存在。google覺得你網(wǎng)站根目錄下恰好存在一個名叫google404errorpage.html的幾率是零,所以如果檢測下來發(fā)現(xiàn)你這個頁面也存在的話,那就不能驗證通過。google這個時候已經(jīng)知道你這是因為泛解析導致的緣故。出于保護你的網(wǎng)站,google不會讓這個驗證通過。
上面的這個分析過程,在公開的渠道里是找不到的,F(xiàn)在在《google網(wǎng)站質量指南》里也只是讓你給不存在的頁面返回 4xx 狀態(tài)碼而已。
http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=35638
而且這個規(guī)則也是最近加進去的。以前,根本找不到相關的資料來參考。
那我的同事為什么一下子就找到問題在哪里了呢?那是因為服務器的log日志里一定會記錄google驗證的這個過程的,把相關目錄下、某個時間段的log日志調出來查看就可以看到了。
如果沒有LOG日志分析,誰能想得到還有這么一個過程在里面呢? 至今,還有很多網(wǎng)站驗證不了這個文件的,現(xiàn)在就可以看看有沒有這個泛解析的問題,或者去分析log日志看看。
還有一次,網(wǎng)站改版后,網(wǎng)站流量驟然下降了。我們知道影響SEO流量的因素有很多,那到底是什么原因導致流量下降呢。我以前的主管BEN通過自己的分析,覺得是url出了問題。
當時的url是這樣的: http://www.alibaba.com/bin/buyoffer/mp3.html
我想很多人都不會覺得這個url有什么異常。但是在當時,這個url有一個致命問題的。
在02年google的爬蟲還不是很成熟的時候,為了避免陷入死循環(huán),爬蟲不光會對那些有多余參數(shù)的url抓取量減少,還會對某些特定的目錄不抓取的。這樣的目錄中,就有 /cgi-bin/ 以及類似的 /bin/ 這樣的目錄。學過CGI語言的人都知道,/cgi-bin/這個目錄下是放置cgi程序的地方,這種目錄下進行抓取是沒什么意義的。/bin/這個目錄也是其他很多系統(tǒng)或者語言默認的文件夾名稱,這些目錄下都不存在google應該抓取的頁面,所以搜索引擎就屏蔽了這樣的目錄抓取。而偏偏我們定義的文件夾名稱就是/bin/,google是不會抓取這個目錄的。
之后,把這個目錄名稱改為/trade/,流量馬上就恢復了。如今,百度也在robots文件的用法中,就拿/cgi-bin/這個目錄做了例舉。 http://www.baidu.com/search/robots.html
我相信這樣的問題即使放到現(xiàn)在,也沒有人敢懷疑是google本身出了問題。有些人還會從上百個因素里找一個看似很合理的原因,導致真正的原因被掩蓋了。但是ben通過技術分析并實踐,卻得出了讓人信服的結論。類似的事情,我后來也碰到過好幾回,因為有他們的經(jīng)驗在鼓舞我,使我也做了一些讓別人不能理解,但是卻給網(wǎng)站帶來很大流量的事情。
技術分析在和競爭對手搶流量的時候,也是競爭力之一。舉一個不那么恰當?shù)睦樱?/div>
sitemap.xml剛出來的時候。我們自己制作好了sitemap.xml文件,但是畢竟這么大型的sitemap文件誰也沒有做過,特別是里面權重的設置在一個大型網(wǎng)站來說是很有講究的。所以我們就想?yún)⒖家粋國外主要競爭對手的文件。一開始通過一個方法拿到了他們的文件地址,但是怎么也打不開那個鏈接,老是返回404錯誤。通過國外的代理服務器去訪問也是這樣。最后,通過模擬google爬蟲才能正常的訪問這個文件。 原來同樣非常重視SEO的這個對手,為了讓自己的sitemap.xml文件不被其他人看到,只有對那種user-agent是google爬蟲的訪問才顯示這個文件,由于瀏覽器的user-agent是很容易判斷出來的,就攔截掉了瀏覽器的訪問。
《怎么樣去學SEO》一文,講述了學SEO要從了解網(wǎng)站和搜索引擎相關的技術開始。而這篇文章就是讓大家看看具體是如何應用的。阿里巴巴最早做SEO的那批人,早在國內還不知道SEO是什么的時候就已經(jīng)涉及到了諸多技術問題,并馬上取得壓倒性的優(yōu)勢。雖然現(xiàn)在他們因為某些原因都沒有在做SEO了,但是他們給網(wǎng)站的貢獻是非常大的。我個人的觀點: 從某方面來說,是SEO成就了alibaba。 本文出自:億恩科技【mszdt.com】 |