淺析聚類搜索引擎研究進展 |
發(fā)布時間: 2012/8/27 9:41:37 |
摘要:聚類搜索是目前互聯(lián)網(wǎng)信息檢索和數(shù)據(jù)挖掘領(lǐng)域的研究熱點。給出了聚類搜索引擎的基本工作過程并據(jù)此概述其國內(nèi)外技術(shù)發(fā)展現(xiàn)狀,從聚類對象、聚類功能、聚類算法三個方面對現(xiàn)有聚類搜索引擎進行分析,從工作流程、聚類方法、應用現(xiàn)狀等方面對兩個典型聚類搜索系統(tǒng)進行了分析和評價,最后給出了聚類搜索引擎的發(fā)展趨勢。
隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應用系統(tǒng)的快速發(fā)展,各個領(lǐng)域的互聯(lián)網(wǎng)應用系統(tǒng)都已經(jīng)積累了海量的Web數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、用戶數(shù)據(jù)、評價數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、狀態(tài)數(shù)據(jù)等等。這些數(shù)據(jù)不僅內(nèi)容極其豐富,而且很大程度上都開放給互聯(lián)網(wǎng)用戶,可以免費的訪問、下載和處理。這就為進一步集成和開發(fā)這些Web數(shù)據(jù)的潛在價值,建立增值應用提供了重要基礎。聚類搜索是近年來發(fā)展最為迅速的互聯(lián)網(wǎng)數(shù)據(jù)集成和增值技術(shù)。聚類搜索是在垂直搜索基礎上發(fā)展起來的新型搜索技術(shù)。垂直搜索是主要針對行業(yè)的專業(yè)搜索,側(cè)重于某一行業(yè)領(lǐng)域,其目的是使用戶能夠更加方便地找出所需的專業(yè)信息。而聚類搜索是為了進一步提高搜索的精度使其符合用戶的搜索習慣和興趣,在搜索引擎的搜索結(jié)果中進行聚類,把搜索出來的信息進行分類處理,將使信息資源更加清晰明了。 目前國內(nèi)對聚類搜索引擎的綜述主要見于文獻[1]和文獻[2],雖然這兩篇文章對聚類搜索引擎進行了很好的綜述和分析,對聚類搜索引擎的形成和發(fā)展過程進行了說明,并對主流聚類搜索系統(tǒng)進行了測評和分析,但是對于聚類系統(tǒng)的功能分析還不夠詳盡,對于聚類搜索引擎未來的發(fā)展沒有給出明確的定位。 本文首先給出了典型聚類搜索引擎系統(tǒng)的基本工作流程,對聚類搜索引擎的發(fā)展歷史和現(xiàn)狀進行了概括式綜述,然后從聚類對象、聚類功能和聚類算法三個角度對聚類搜索引擎進行研究,并全面分析了若干著名聚類搜索引擎。 本文結(jié)構(gòu):第1節(jié)介紹聚類搜索引擎的發(fā)展現(xiàn)狀;第2節(jié)對聚類搜索引擎的功能進行分析;第3節(jié)對典型聚類搜索引擎進行綜述;第4節(jié)描述聚類搜索引擎的發(fā)展趨勢;第5節(jié)總結(jié)全文。 1 聚類搜索引擎的研究現(xiàn)狀 1.1 聚類搜索引擎概念和工作過程 所謂聚類搜索引擎,就是運用聚類技術(shù)對搜索結(jié)果進行自動聚類分析的搜索工具。其特點是去重性強、分類性強、匯集性強,即可以及時去除重復信息,對搜索的結(jié)果進行分門別類,并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個或多個搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進行預處理,過濾掉重復、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標簽;④將文檔分配到生成的聚類標簽下;⑤將聚類后的搜索結(jié)果進行排序并顯示給用戶。 1.2 國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀 搜索引擎的發(fā)展階段總共經(jīng)歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機器進行自動爬取和分析,利用鏈接分析技術(shù)實現(xiàn)更為準確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習慣記憶等方面,是未來搜索引擎主要的發(fā)展方向。 近幾年,國際上對聚類搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類搜索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個在搜索引擎上使用聚類方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類搜索引擎,符合用戶使用習慣,搜索效率高;贘ava的開源Carrot2聚類搜索引擎[5]可自動的把搜索結(jié)果歸類到相應的語義類別中,它的一個亮點是速度和易用性的提高。中文搜索領(lǐng)域,早期比較有實力的聚類搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復信息的煩惱。Bbmao的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結(jié)果的功能,同時完成海量信息的分門別類。近期出現(xiàn)的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發(fā)點是兩大搜索引擎的搜索結(jié)果的很大的差異性。這類系統(tǒng)對搜索結(jié)果進行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用戶更便捷地找到需要的信息。 有關(guān)國內(nèi)外聚類搜索引擎的相關(guān)技術(shù),主要有聚類分析、聚類算法、中文信息處理等技術(shù)。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質(zhì)量的研究。Sudipto Guha等研究人員[8]應用概念關(guān)聯(lián)代替?zhèn)鹘y(tǒng)的計算歐式距離,來衡量數(shù)據(jù)之間的相似度,從而確定聚類,達到了很好的效果。 國內(nèi)一些學術(shù)組織和團體很早就開始對自動文本分類、聚類領(lǐng)域等相關(guān)內(nèi)容進行研究,從“天網(wǎng)”和“網(wǎng)絡指南針”開始北京大學和清華大學就開始致力于網(wǎng)頁的聚類技術(shù)研究。此外,北京科技大學的麻雪云提出了一種基于關(guān)鍵名詞短語聚類的中文搜索結(jié)果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯(lián)網(wǎng)信息,對搜索結(jié)果進行聚類分析。國防科技大學的肖坤對STC算法和Lingo算法進行了比較,并對STC算法進行了改進,設計實現(xiàn)了一個面向校園網(wǎng)聚類搜索引擎系統(tǒng)[10]。 2 聚類搜索引擎的功能分析 2.1 聚類對象分析 現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價數(shù)據(jù)、社交數(shù)據(jù)。 商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類信息,并按照銷量、價格、信用進行了排序,對商品的聚類分析清晰明確。評價數(shù)據(jù)主要包括論壇對相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品的滿意度評價信息等。大連海事大學的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡論壇熱點話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否為焦點人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡注冊用戶個人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類的關(guān)聯(lián)信息,對實現(xiàn)智能和個性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。 2.2 聚類功能分析 聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。 智能聚類:聚類搜索引擎大多具有這項功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會對搜索結(jié)果自動分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻。 去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時間,是十分實用的一項聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結(jié)果后,比比貓可以自動為用戶獲取最有搜索結(jié)果并取掉重復的信息。 多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強,用戶輸入音樂名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關(guān)度最高。 覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對象內(nèi)容豐富。 2.3 聚類算法分析 聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點進行聚類。PinkySeach[12]和Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法,將聚類的結(jié)果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動分類成圖形界面顯示出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過標簽云的形式將在語義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。 3 典型聚類搜索引擎 3.1 Vivisimo系統(tǒng) Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結(jié)果,對查詢的結(jié)果進行聚類分析,經(jīng)過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結(jié)果,主要是文本信息。Vivisimo的聚類功能主要是文本的聚類,通過對文本內(nèi)容進行搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預先標記或分類的資源中整合、分類內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對檢索的結(jié)果進行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預。 目前Vivisimo的商業(yè)應用十分廣泛,它對信息的分類很體貼,具有人性化。其細致的檢索結(jié)果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數(shù)據(jù)資源庫,依附于其他大型搜索引擎,獨立性較差,檢索功能有待加強。 3.2 Carrot2系統(tǒng) Carrot2是基于Java開發(fā)的開源聚類搜索系統(tǒng)[6],主要用于對搜索結(jié)果進行聚類。與Vivisimo相似,首先也是用戶輸入關(guān)鍵字在Bing、baidu、google等知名搜索引擎進行搜索,然后對返回的搜索結(jié)果進行聚類,并通過樹形的分類圖進行顯示出來。Carrot2的聚類對象主要是各大搜索引擎返回的搜索結(jié)果,其通過文檔聚類平臺workbench,對搜索的數(shù)據(jù)進行聚類分析,并通過文檔聚類服務器DCS,將聚類結(jié)果作為REST服務呈現(xiàn)。最后,Carrot2以WebApp方式將聚類結(jié)果作為網(wǎng)絡應用呈現(xiàn)給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于奇異值分解的索引結(jié)果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。 目前Carrot2支持的聚類算法較多,代碼開源可以進行版本的更新和改進。該系統(tǒng)應用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。 4 聚類搜索引擎發(fā)展趨勢 文獻[1]通過對大量搜索引擎的評測,發(fā)現(xiàn)獨立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結(jié)果的聚類方法進行了評測,對聚類搜索引擎的趨勢的分析也主要側(cè)重于聚類方法。本文認為聚類搜索引擎未來將向數(shù)據(jù)海量化,鏈接社交化,聚類綜合化三個方向發(fā)展。 4.1 數(shù)據(jù)海量化 現(xiàn)階段的聚類搜索由于數(shù)據(jù)集較為單一,聚類算法過于老舊,造成呈現(xiàn)給用戶的檢索結(jié)果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類搜索的發(fā)展壯大。所以未來聚類搜索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列搜索結(jié)果,而是通過對搜索的詞條和海量的網(wǎng)頁的內(nèi)容進行分析,自動對搜索結(jié)果進行聚類和分類,為用戶提供豐富而直觀的結(jié)果。 4.2 鏈接社交化 在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡形成了一個巨大的Deep Web(針對網(wǎng)絡爬蟲而言),而這個數(shù)據(jù)量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進行聚類搜索可望更好滿足用戶的個性化需求。 4.3 聚類綜合化 聚類的多元化、跨領(lǐng)域、綜合化將是新型聚類搜索的重要特點。局限于單個應用領(lǐng)域的聚類搜索已經(jīng)難以適應需要,跨領(lǐng)域聚類將是未來聚類搜索面臨的主要挑戰(zhàn)。 5 結(jié)束語 隨著Web2.0的蓬勃發(fā)展,網(wǎng)頁數(shù)量成級數(shù)增長,為了使互聯(lián)網(wǎng)用戶更加方便、快捷的得到需要的信息,聚類搜索代表著一種重要搜索引擎的發(fā)展方向。隨著聚類搜索引擎的算法和數(shù)據(jù)源的逐步完善,聚類搜索引擎技術(shù)將得到迅猛發(fā)展和更為廣泛的應用。(來源:電腦知識與技術(shù) 編選:中國SEO) 參考文獻: [1]蘇建華,張燦,聚類搜索引擎研究[J].新世紀圖書館,2009(6):72-75. [2]蒼宏宇,譚宗穎,聚類搜索引擎發(fā)展現(xiàn)狀研究[J],圖書情報工作,2009,53(2):125-127. [3]沈賀丹,潘亞楠,關(guān)于搜索引擎的研究綜述[J].計算機技術(shù)與發(fā)展,2006.16(4):147-152. [4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441. [5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887. [6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444. [7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19. [8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12]. [9]麻雪云,基于聚類的元搜索引擎設計和實現(xiàn)[D].北京:北京信息科技大學,2008. [10]肖坤,面向用戶興趣的校園網(wǎng)聚類搜索引擎的研究與實現(xiàn)[D].長沙:國防科技大學,2010. [11]魯明羽,姚曉娜,魏善嶺,基于模糊聚類的網(wǎng)絡論壇熱點話題挖掘[J].大連海事大學學報,2008,34(04):52-58. [12]余晉等.PinkySearch:基于聚類的元搜索引擎[C].NDBC 2009. 本文出自:億恩科技【mszdt.com】 |