Bing核心搜索研發(fā)部:搜索質(zhì)量的見解 |
發(fā)布時間: 2012/9/10 11:37:32 |
題記:這是一篇來自Bing核心搜索研發(fā)部經(jīng)理的一篇文章,本文講訴了Bing的一系列功能改進,這只是一篇普通的搜索功能改進介紹,但通讀本文,我們會發(fā)現(xiàn),搜索引擎會把大量精力放在研究人們在搜索時犯的錯、如何正確理解用戶的意圖、以及利用詞庫提供更精準的內(nèi)容上面。所以盧松松相信,無論是bing、Google還是百度,都會這么做。
在Bing,我們承諾提供最好的搜索結(jié)果,雖然研究小組數(shù)據(jù)挖掘?qū)<遥诓粩嗵峁┪覀兊暮诵钠磳懞团琶惴,可現(xiàn)實是總有某些歷史上的遺留下的缺陷,這部分是因為人們過于依賴搜索所犯的錯誤,在這篇文章中,我的同事Bill Ramsey(Bing的研發(fā)部經(jīng)理),將從三個方面介紹缺陷的發(fā)生率和嚴重性:網(wǎng)址查詢、追蹤鏈接和相關搜索。
網(wǎng)址查詢常見的錯誤
這是搜索缺陷的主要來源之一,涉及到我們所說的網(wǎng)址查詢,例如“facebook.com”或“雅虎網(wǎng)站/郵箱”的查詢,乍一看,你可能會認為這是一個簡單的問題。畢竟搜索引擎(Bing)包含數(shù)十億網(wǎng)址,找到一個匹配的網(wǎng)站沒多少難度。但在現(xiàn)實中,這種類型的查詢實際上相當復雜。因為我們所有人會用無數(shù)的拼寫與變體。
例如,“facebook.com”就有上千個不同的變體,如“facebookc.om”,“facbook.com”,和“ww.faceboo.omc”,除了這類拼寫錯誤外,人們并不總是知道正確的URL。例如西南航空公司是southwest.com,但有些人試圖搜“swair.com”達到該公司的網(wǎng)頁。同時,我們通?吹降木W(wǎng)址,如“雅虎網(wǎng)站/郵箱”時,正確是URL是“mail.yahoo.com”的排列。
即使我們找出了你真正的搜索意圖,但惡意網(wǎng)址或垃圾郵件發(fā)送者提出了另一個挑戰(zhàn)。它們獵取頂級域名對象如coolmathgames.com(人實際上是為coolmath-games.com)的URL。
這是我們的缺陷,我們主要通過三個領域來解決這類錯誤的查詢方法:
第一, 正確識別URL,我們可以就遮擋,通過確定的網(wǎng)址,我們避免如包括像searscardcom.com垃圾結(jié)果的問題。
第二, 進行模擬用戶錯誤測試,通過數(shù)十億的原模型,我們能夠解決常見的拼寫錯誤的網(wǎng)址。
第三, 我們會分析,尋找像“swair.com”網(wǎng)站,使用戶最終將結(jié)束預定網(wǎng)站“southwest.com”。
另一個例子,適用于機器學習模式,像“facebooklogin.com” 的查詢相當于 “facebooklogin.net”,這是很常見的域名后綴輸入錯誤。此外,像“bed bath and beyond.com” 輸入成 bedbathandbeyond.com。我們的模型已經(jīng)適應了這些變化,會主動把搜索結(jié)果修改,下面的例子是facebook的用戶:
刪除多余追蹤的相關鏈接
搜索引擎的關鍵功能之一,是查詢執(zhí)行拼寫和查詢擴展的組件,拼寫會糾正數(shù)百個錯誤的查詢,而搜索出現(xiàn)的詞組(下面的查詢框,表明我們改變了用戶的查詢),我們把這種改建作為“追索”。例如,如果你輸入“關于成功英雄的事跡”,我們將顯示“包括引號的成功的英雄事跡”,但我們可能只顯示“關于成功的英雄和事跡”,我們會架設所有關于你的意圖。
在過去,我們用同義詞作為我們追蹤鏈接的一部分,但會經(jīng)常導致搜索結(jié)果偏離主題,導致同義詞追蹤成為多余的功能, 所有我們在不斷擴大“詞語”的定義,幫助其用戶更好的進行匹配。
所以這項功能我們已經(jīng)刪除,這個附加的價值不大,當Bing改變一些同義詞的話,追蹤鏈接可能不可能添加更多的有價值的信息,所以我們將搜索結(jié)果的顏色改為黑色。我們將繼續(xù)努力為用戶指定的搜索詞語提供更好的查詢。
改進相關搜索
相關搜索,這個大家很熟悉,在人們初始搜索時,我們會把相關的搜索防止搜索結(jié)果左側(cè),現(xiàn)在調(diào)整到右側(cè),例如搜索“布拉德·皮特”:
(注:Bing中國版還沒有變,百度和Google在底部。)
有時我們會查詢搜索結(jié)果的題外話。例如“AMD”會給用戶提供意想不到的搜索結(jié)果,通過改善我們的相關模型。
同時,我們也取得了其他地方改進,超越有關相關搜索中的格式條款,即“KSN WeatherLab” 中的 “KSN Weather Lab”,(注:一些實驗性項目,處于測試階段),并避免在安全搜索中檢索到成人內(nèi)容。
結(jié)論:
搜索引擎的有點在于它會始終依賴于人,而人們總會有不同缺陷的,我們做的是降低缺陷率和搜索率,希望人們可以做更少的搜索并做更多的事。 本文出自:億恩科技【mszdt.com】 |