百度站長平臺發(fā)布Web2.0反垃圾詳細攻略 |
發(fā)布時間: 2012/9/15 14:37:06 |
不僅是警告!----百度站長平臺發(fā)布Web2.0反垃圾詳細攻略
一、web2.0站點與垃圾內(nèi)容
由于大多數(shù)web2.0建站系統(tǒng)存在漏洞,攻克技術成本較低,且群發(fā)軟件價格低廉,容易被作弊者利用,近期我們發(fā)現(xiàn)大量web2.0站點被群發(fā)的垃圾信息困擾。這些垃圾群發(fā)內(nèi)容無孔不入,除論壇、博客等傳統(tǒng)的web2.0站點受到困擾外,現(xiàn)已蔓延到微博、SNS、B2B商情頁、公司黃頁、分類信息、視頻站、網(wǎng)盤等更多領域內(nèi),甚至連新興的分享社區(qū)也受到了影響。從以前的論壇帖子、博客日志,擴展到供求信息頁、視頻頁、用戶資料頁,這些任何由用戶填寫和生成內(nèi)容的地方,都會被作弊者發(fā)掘利用,形成大量的web2.0性質(zhì)的垃圾頁面。
搜索引擎在發(fā)現(xiàn)web2.0性質(zhì)的垃圾頁面后必將做出相應應對,但對真正操作群發(fā)的作弊者很難有效的打擊,所以作弊者容易利用web2.0站點極低成本且自身安全這些特點,做出更多危害網(wǎng)站、危害用戶、危害搜索引擎的行為。若網(wǎng)站自身管理不嚴控制不力,很容易成為垃圾內(nèi)容的溫床;有些網(wǎng)站為了短期流量而對垃圾內(nèi)容置之不理,這無異于飲鴆止渴。網(wǎng)站不應僅僅是平臺的提供者,更應該是內(nèi)容的管理者,積極維護網(wǎng)站自身質(zhì)量非常重要。若網(wǎng)站任由垃圾內(nèi)容滋長,不僅會影響網(wǎng)站的用戶體驗,同時也會破壞網(wǎng)站口碑和自身品牌建設,造成正常用戶流失,嚴重時,還會使搜索引擎降低對網(wǎng)站的評價。
對于作弊者來說,在web2.0站點上發(fā)布垃圾內(nèi)容的目的就是被搜索引擎收錄,如果不能讓垃圾頁面在網(wǎng)站和搜索引擎上消失,他們依然會持續(xù)不斷地產(chǎn)生更多垃圾內(nèi)容。百度站長平臺希望和站長一起打擊垃圾頁面,幫助網(wǎng)站良性發(fā)展,共同維護互聯(lián)網(wǎng)生態(tài)環(huán)境。
二、哪些內(nèi)容會被百度判別為垃圾內(nèi)容
一切對用戶無意義,且會傷害用戶的內(nèi)容,就是垃圾內(nèi)容。我們總結(jié)了以下幾種比較典型的案例,以示說明:
1,與網(wǎng)站或論壇版塊主題不符的內(nèi)容
群發(fā)者通常都是大面積群發(fā)內(nèi)容,多數(shù)情況下不會注意站點及版塊主題,有時我們會在視頻網(wǎng)站中見到“XXX醫(yī)院治療白癲風效果好”的內(nèi)容,會在化妝品論壇發(fā)現(xiàn)航空公司的虛假電話,會在音樂網(wǎng)站中找到商品推銷信息(當然不是賣CD的)等等。對于這些主題明確的站點或論壇,清理垃圾內(nèi)容的意義不僅在于保證網(wǎng)站體驗,也是從自身發(fā)展考慮維護用戶忠誠度,提高核心競爭力的事情。舉例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html 網(wǎng)站主題為化妝品,出現(xiàn)“找小姐”等不良內(nèi)容廣告
http://cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html 網(wǎng)站主題為視頻,出現(xiàn)明顯商業(yè)廣告性質(zhì)的醫(yī)療信息
2,欺騙搜索引擎用戶的內(nèi)容
1)垃圾信息為了在眾多搜索結(jié)果中脫穎而出、吸引用戶注意,通常會使用誘人的標題,或在內(nèi)容中添加大量關鍵詞,有別于真實用戶發(fā)帖時使用自然語言表達的情況。舉例:
http://cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html “優(yōu)酷土豆%守望的天空29集”--有悖于普通用戶發(fā)布信息的習慣。
2)有些帖子內(nèi)容是一段沒有任何意義的文字,或者隨意采集來一篇文章,而中間穿插了一些熱門關鍵詞。舉例:
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
http://cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html
3)有些文章看標題以為在說A事,而主要內(nèi)容卻在講B,且與A毫無關系。舉例:
http://cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
4)對于視頻音頻網(wǎng)站來說,無論內(nèi)容上傳者是否為惡意,只要視頻或音頻文件不能滿足用戶需求或者與標題所述不符都應該清除掉。舉例:
http://cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html 乍一看以為是電視劇專輯,實際視頻平均不足1分鐘
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html 視頻內(nèi)嵌入了聯(lián)系方式,名為介紹武藝,實際是在推廣另一藝人,視頻站點成為其免費的推廣平臺。
3,欺騙網(wǎng)站詐取分帳式廣告收益的內(nèi)容
部分web2.0站點為了鼓勵用戶上傳內(nèi)容,會設計一套現(xiàn)金鼓勵機制,比如視頻網(wǎng)站,根據(jù)視頻前面的廣告展現(xiàn)量來計算用戶收益,少數(shù)分成用戶會采取一些不正當?shù)氖侄螐乃阉饕骝_取流量,從站方詐取分成收益。如大量上傳短小視頻,并在視頻網(wǎng)頁上堆積誘人的關鍵詞。
4,惡意利用web2.0網(wǎng)站為自己做推廣、謀福利的內(nèi)容。舉例:
http://cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html
視頻內(nèi)嵌入了聯(lián)系方式,名為介紹武藝,實際是在推廣另一藝人,視頻站點成為其免費的推廣平臺。
5,有違法律法規(guī)的不良信息,如詐騙中獎聯(lián)系方式、虛假聯(lián)系電話、不良信息。舉例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html
http://cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html
http://cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html
http://cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html
三、網(wǎng)站管理員面對垃圾內(nèi)容,如何應對
出于對網(wǎng)站自身發(fā)展的考慮,為了使搜索引擎能夠提供更加公平的結(jié)果,為了維護互聯(lián)網(wǎng)生態(tài)環(huán)境,以及給網(wǎng)民提供更好的上網(wǎng)體驗,我們認為web2.0站點或論壇版塊里存在上述內(nèi)容是非常不合適的,網(wǎng)站管理員應對垃圾內(nèi)容進行重點清理,可以采取以下措施:
1,刪除垃圾內(nèi)容,并將這些頁面設置為404頁面后,及時通過百度站長平臺http://zhanzhang.baidu.com/ 的死鏈工具提交死鏈列表。不僅令百度對站點的自我清理行為及時響應,更方便站點主動控制網(wǎng)站內(nèi)容在搜索引擎的呈現(xiàn)情況。
2,提高注冊用戶門檻,限制機器注冊
1)群發(fā)軟件通常使用自動的程序探測論壇默認的注冊文件名、發(fā)帖文件名。管理員可以不定期的修改注冊用戶文件名、發(fā)帖文件名;注冊、發(fā)帖按鈕使用圖片;與程序默認的不同,可以防止被自動程序搜索到。
2)發(fā)帖機通常是機器注冊,行為模式單一。管理員可添加一些需要人工操作的步驟,有助于限制機器注冊。 如:使用驗證碼;限制同一郵箱注冊ID的數(shù)量,同時啟用郵箱驗證;使用更為復雜的驗證機制;經(jīng)常更換注冊問答。
3)除了在注冊處設置門檻外,還可以控制新用戶權限。如要求完成上傳頭像、完善用戶信息等人工操作步驟后才開放發(fā)帖功能;在一定時間內(nèi)限制新用戶發(fā)帖;限制新用戶發(fā)布帶鏈接的帖子,待達到一定級別后再放開。
3,嚴控機器發(fā)帖行為,如使用驗證碼、限制短時間內(nèi)連續(xù)發(fā)帖等。
4,建立黑名單機制,將群發(fā)常用詞、廣告電話和網(wǎng)址等加入黑名單,對含有黑名單內(nèi)容的帖子進行限制或清除。黑名單應該不斷維護,以堵截原有垃圾詞匯發(fā)生變形和新生垃圾詞匯。
5,對站內(nèi)的異常進行監(jiān)控。發(fā)現(xiàn)注冊量、帖子數(shù),甚至站點流量爆增后,及時發(fā)現(xiàn)和查找原因。
6,對站點內(nèi)用戶的行為進行監(jiān)控
1)部分異常用戶的ID結(jié)構(gòu)有別于普通用戶,如使用無意義的字母數(shù)字、或幾個單個漢字的無序組合,如:gtu4gn6dy1、蝶淑琴;使用商業(yè)詞作為ID,如:軸承天地7、hangkongfuwu123。
2)發(fā)布內(nèi)容間隔過短
3)發(fā)布的內(nèi)容絕大部分非常類似
4)發(fā)布的大部分內(nèi)容里含有類似的特征,如某個網(wǎng)址、電話、QQ號碼等聯(lián)系方式
7,不允許發(fā)布帶有可執(zhí)行代碼的內(nèi)容,避免彈窗、跳轉(zhuǎn)等嚴重影響用戶體驗的情況發(fā)生。
8,對部分web2.0位置提及的鏈接,使用“nofollow”進行標記,如:bbs簽名內(nèi)的鏈接、BLOG回復ID自置的鏈接
http://cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html
9,論壇中的廣告、灌水版塊,建議加上權限限制,或者禁止搜索引擎收錄。
10,關注建站程序的安全更新,及時安裝補丁程序。保障用戶賬號安全,避免發(fā)生盜用正常用戶賬號或歷史沉寂用戶賬號發(fā)布垃圾內(nèi)容的情況發(fā)生。 本文出自:億恩科技【mszdt.com】 |