激情五月天婷婷,亚洲愉拍一区二区三区,日韩视频一区,a√天堂中文官网8

<ul id="buwfs"><strike id="buwfs"><strong id="buwfs"></strong></strike></ul>
    <output id="buwfs"></output>
  • <dfn id="buwfs"><source id="buwfs"></source></dfn>
      <dfn id="buwfs"><td id="buwfs"></td></dfn>
      <div id="buwfs"><small id="buwfs"></small></div>
      <dfn id="buwfs"><source id="buwfs"></source></dfn>
      1. <dfn id="buwfs"><td id="buwfs"></td></dfn>
        始創(chuàng)于2000年 股票代碼:831685
        咨詢熱線:0371-60135900 注冊(cè)有禮 登錄
        • 掛牌上市企業(yè)
        • 60秒人工響應(yīng)
        • 99.99%連通率
        • 7*24h人工
        • 故障100倍補(bǔ)償
        全部產(chǎn)品
        您的位置: 網(wǎng)站首頁(yè) > 幫助中心>文章內(nèi)容

        百度優(yōu)化:一款用于改進(jìn)圖片搜索效果的標(biāo)注游戲

        發(fā)布時(shí)間:  2012/9/5 11:10:21
         圖片搜索由于在搜索目標(biāo)上的特殊性,往往依賴于圖片所在網(wǎng)頁(yè)的文本來(lái)判斷圖片的內(nèi)容(我們成為圖片周邊文本)。而周邊文本往往不能很好的表達(dá)圖片的內(nèi)容,并且一張圖片往往在多個(gè)網(wǎng)頁(yè)中被引用,圖片周邊文本也不太一致,甚至于很多圖片并沒(méi)有周邊文本,因此給圖片搜索算法提出了更高挑戰(zhàn)。

          通過(guò)“眾包”的方式(百度眾測(cè)平臺(tái))為圖片進(jìn)行信息標(biāo)注,從而提高搜索引擎的準(zhǔn)確性和召回率往往是一個(gè)比較有效的方法,并且標(biāo)注的數(shù)據(jù)可以作為圖片機(jī)器學(xué)習(xí)的樣本數(shù)據(jù),對(duì)于提高圖片機(jī)器學(xué)習(xí)的準(zhǔn)確率也有很大的效果;但是在圖片標(biāo)注的過(guò)程中也有很多問(wèn)題需要解決,例如:

         。1)用戶作弊問(wèn)題:在“眾包”平臺(tái)中,有因?yàn)榕d趣愛(ài)好參與標(biāo)注的,也有因?yàn)槠脚_(tái)激勵(lì)機(jī)制而參與標(biāo)注的,因此會(huì)存在部分用戶為了獲取獎(jiǎng)勵(lì)而進(jìn)行作弊的行為,這些作弊行為會(huì)給標(biāo)注數(shù)據(jù)的準(zhǔn)確率帶來(lái)很大的影響;

          (2)如何對(duì)用戶的標(biāo)注進(jìn)行引導(dǎo),使得標(biāo)注的信息更為準(zhǔn)確,讓用戶的標(biāo)注成本更低,標(biāo)注過(guò)程更為有趣味性,從而提高標(biāo)注的效率;

          本文所提到的就是一種帶有防作弊功能的,能夠?qū)τ脩舻臉?biāo)注信息進(jìn)行細(xì)分引導(dǎo),從而使得標(biāo)注數(shù)據(jù)越來(lái)越精確的圖片標(biāo)注方法。

          在本文所描述的圖片標(biāo)注游戲中,用戶被區(qū)分為兩種類型:

         。1)描述者:對(duì)系統(tǒng)展現(xiàn)的一張圖片用一段文字或者幾組關(guān)鍵字進(jìn)行描述,表達(dá)出圖片的內(nèi)容和特點(diǎn);

          (2)判斷者:系統(tǒng)向其展現(xiàn)多張圖片(一般情況下為4張)以及一段描述文字,這段描述文字所對(duì)應(yīng)的圖片也包含在所展現(xiàn)的圖片當(dāng)中,判斷者根據(jù)“描述文字”挑選出對(duì)應(yīng)的圖片;

          用戶可以隨時(shí)在“描述者”和“判斷者”之間切換身份,但是不會(huì)出現(xiàn)用戶自己判斷自己所描述的圖片的情況。系統(tǒng)將“描述者”描述的圖片分配給“判斷者”的時(shí)候有一套算法確保不會(huì)分配給“原描述者”,并且也不會(huì)分配給距離“描述者”較近或者可能認(rèn)識(shí)的“判斷者”。我們?cè)谖恼潞竺鏁?huì)描述這個(gè)分配算法。

          一、“描述者”描述圖片的過(guò)程

          圖1: 圖片標(biāo)注系統(tǒng)

          如圖1,當(dāng)用戶點(diǎn)擊“圖片標(biāo)注系統(tǒng)”的“描述圖片”按鈕之后,系統(tǒng)會(huì)從圖片數(shù)據(jù)集(圖片URL集合)中隨機(jī)挑選出100個(gè)圖片URL,然后逐個(gè)給用戶展示圖片(如圖2和3)。

          圖2:描述圖片(甲殼蟲昆蟲)

          圖3:描述圖片(甲殼蟲汽車)

          圖4:描述圖片(甲殼蟲樂(lè)隊(duì))

          二、“判斷者”判斷圖片的過(guò)程

          圖5:判斷圖片

          當(dāng)用戶選擇“判斷圖片”的時(shí)候,系統(tǒng)也會(huì)選擇隨機(jī)選擇100個(gè)已經(jīng)有標(biāo)注(就是有用戶描述)的圖片,每次展示一段標(biāo)注文字以及相應(yīng)的4張圖片(可以是更多張,系統(tǒng)可以配置)。如圖5,最上面藍(lán)色框里面是已有用戶標(biāo)注“甲殼蟲汽車”,中間是系統(tǒng)挑選出來(lái)的4張圖片,挑選的算法后面會(huì)有詳細(xì)介紹。挑選的圖片當(dāng)中包含用戶標(biāo)注對(duì)應(yīng)的圖片,例如圖5中就是對(duì)應(yīng)中間的紅色甲殼蟲汽車。

          當(dāng)用戶判斷出圖片之后,只要用鼠標(biāo)點(diǎn)擊相應(yīng)的圖片就會(huì)在圖片周邊有紅色的方框?qū)D片圈住,用戶點(diǎn)擊繼續(xù)判斷即可提交判斷結(jié)果并進(jìn)入到下一個(gè)標(biāo)注文字的判斷。

          三、“判斷者”的選取方法

          為了防止作弊,系統(tǒng)有一套“判斷者”選取方法,主要避免如下的作弊行為:

         。1)“描述者”判斷自己所標(biāo)注的圖片;

         。2)“描述者”和“判斷者”之間協(xié)同作弊;

          系統(tǒng)的處理方法如下:

          (1)“描述者”在標(biāo)注圖片的時(shí)候,系統(tǒng)會(huì)記錄描述者的賬號(hào)和IP地址;

         。2)系統(tǒng)在挑選“判斷者”的時(shí)候會(huì)選擇不同的賬號(hào),并且對(duì)IP地址進(jìn)行位置轉(zhuǎn)換,選擇一個(gè)距離“描述者”較遠(yuǎn)的“判斷者”;

          (3)系統(tǒng)會(huì)記錄“標(biāo)注文字”的分配歷史記錄,不會(huì)將同一個(gè)“標(biāo)注文字”重復(fù)分配給同一個(gè)“判斷者”,“描述者”和“判斷者”之間的持續(xù)作弊成本很高;

          四、相關(guān)圖片的選取方法

          系統(tǒng)在挑選“相關(guān)圖片”給“判斷者”的時(shí)候,需要解決如下問(wèn)題:

         。1)不能出現(xiàn)極度相似甚至重復(fù)的圖片;

         。2)圖片之間要對(duì)標(biāo)注文字有區(qū)分度和標(biāo)注引導(dǎo)作用;

          對(duì)于第1點(diǎn)不難理解,因?yàn)槌霈F(xiàn)極度相似甚至重復(fù)圖片的時(shí)候,那么“判斷者”就沒(méi)法選擇圖片。對(duì)于第2點(diǎn)我們舉個(gè)例子說(shuō)明一下,例如下面這張圖片(甲殼蟲汽車):

         

          圖6:甲殼蟲汽車

          “描述者”在一開(kāi)始的時(shí)候很可能僅僅標(biāo)注“甲殼蟲”,“甲殼蟲”這個(gè)信息雖然沒(méi)有錯(cuò),但是在應(yīng)用到圖片檢索的時(shí)候會(huì)存在歧義,因?yàn)?ldquo;甲殼蟲”可能對(duì)應(yīng)“甲殼蟲汽車”、“甲殼蟲昆蟲”和“甲殼蟲樂(lè)隊(duì)”,為了引導(dǎo)“描述者”進(jìn)一步標(biāo)注出有區(qū)分度的標(biāo)注信息,系統(tǒng)會(huì)根據(jù)“甲殼蟲”這個(gè)關(guān)鍵字選取出如下三張圖片:

          圖7、標(biāo)注信息無(wú)區(qū)分度

          這時(shí)候“判斷者”根據(jù)“甲殼蟲”無(wú)法判斷“描述者”所描述的圖片是哪一張,從而雙方都獲取不同系統(tǒng)獎(jiǎng)勵(lì)的積分,從而推動(dòng)“描述者”進(jìn)一步標(biāo)注更為詳細(xì)和有區(qū)分度的信息,例如“描述者”可能會(huì)進(jìn)一步描述為:“甲殼蟲汽車、紅色、大眾”,這時(shí)候“判斷者”就很容易判斷出圖片。

          系統(tǒng)在選擇展現(xiàn)圖片的時(shí)候,會(huì)根據(jù)標(biāo)注中的關(guān)鍵字從圖片庫(kù)中進(jìn)行組合選取,例如標(biāo)注文字中可以提取出關(guān)鍵字K1、K2和K3,系統(tǒng)會(huì)對(duì)關(guān)鍵字進(jìn)行組合(K1,K2)、(K2、K3)和(K1,K2,K3)等從圖片庫(kù)中提取相關(guān)的圖片,這是一個(gè)根據(jù)關(guān)鍵字檢索圖片的過(guò)程。

          選取出相關(guān)的候選圖片后,我們會(huì)用“感知哈希函數(shù)”對(duì)圖片進(jìn)行相似度計(jì)算,我們選用基于DCT離散余弦變換的圖像感知哈希,計(jì)算出兩張圖片的漢明距離,并且設(shè)置閾值為26(可以調(diào)整),小于26的情況下我們認(rèn)為兩張圖片極度相似,從而不選擇這張圖片,例如如下兩張圖片的計(jì)算結(jié)果:

        圖8、Hamming Distance=24.000000 ( <26, 相似 )

        圖9、Hamming Distance=40.000000 ( >26,不相似 )

          通過(guò)漢明距離的計(jì)算,我們選用圖9中的黃色甲殼蟲,而不選用圖8中第2張紅色甲殼蟲,因?yàn)檫@張圖片和標(biāo)注文字對(duì)應(yīng)的圖片極度相似。

          五、系統(tǒng)的數(shù)據(jù)通信流

          如圖10,圖片標(biāo)注系統(tǒng)劃分為三層結(jié)構(gòu):表現(xiàn)層、邏輯層和數(shù)據(jù)層,各層的功能如下:

          (1)表現(xiàn)層:圖片標(biāo)注系統(tǒng)包括Web前端、Android前端和IOS前端等不同終端,用戶可以通過(guò)這些終端參與圖片標(biāo)注;

         。2)邏輯層:邏輯層是整個(gè)系統(tǒng)比較復(fù)雜的部分,包括數(shù)據(jù)預(yù)處理、核心調(diào)度和標(biāo)注管理三個(gè)不同模塊,后面我們會(huì)詳細(xì)介紹各個(gè)模塊的功能;

         。3)數(shù)據(jù)層:圖片標(biāo)注系統(tǒng)對(duì)圖片URL集合等原始數(shù)據(jù)進(jìn)行處理,最終產(chǎn)出帶有用戶標(biāo)注信息的數(shù)據(jù)集,圖中的“用戶數(shù)據(jù)”就是用戶信息,而“IP地域數(shù)據(jù)”是用于判斷用戶所在物理位置用的詞典。

          圖10、圖片標(biāo)注系統(tǒng)結(jié)構(gòu)

          下面我們對(duì)系統(tǒng)最為復(fù)雜的“邏輯層”進(jìn)行介紹,“邏輯層”包括“數(shù)據(jù)預(yù)處理”、“核心調(diào)度”和“標(biāo)注管理”三部分,功能如下:

         。1)數(shù)據(jù)預(yù)處理:

          A、為了改善一些圖片所在服務(wù)器響應(yīng)慢導(dǎo)致終端用戶等待時(shí)間過(guò)長(zhǎng)的問(wèn)題,數(shù)據(jù)預(yù)處理模塊會(huì)對(duì)原始圖片URL進(jìn)行探測(cè),檢測(cè)響應(yīng)速度,篩選出響應(yīng)時(shí)間慢的URL,并且對(duì)響應(yīng)時(shí)間慢的圖片進(jìn)行后臺(tái)抓取保存,當(dāng)終端請(qǐng)求這些圖片的時(shí)候會(huì)向后臺(tái)請(qǐng)求,而不請(qǐng)求原URL地址;

          B、數(shù)據(jù)預(yù)處理模塊還會(huì)對(duì)原始數(shù)據(jù)中的圖片URL發(fā)送請(qǐng)求獲取圖片,然后計(jì)算其基于DCT的感知哈希值,哈希值用于后面核心調(diào)度模塊選擇圖片的時(shí)候?qū)Ρ葓D片之間的漢明距離,從而決定選取哪些圖片給“判斷者”;

         。2)核心調(diào)度:

          A、核心調(diào)度模塊的第一個(gè)功能是為“描述者”選擇展示圖片,當(dāng)一個(gè)用戶作為“描述者”加入系統(tǒng)之后,核心調(diào)度模塊會(huì)為其隨機(jī)挑選100張圖片;

          B、核心調(diào)度模塊的第二個(gè)功能是為“描述者”標(biāo)注的圖片找到一個(gè)或者多個(gè)“判斷者”,“判斷者”是隨機(jī)選取的,和“描述者”之間互不認(rèn)識(shí),并且選取的“判斷者”的IP在物理距離上離“描述者”比較遠(yuǎn),并且會(huì)優(yōu)先選擇之前未判斷過(guò)該圖片的“判斷者”;

          C、核心調(diào)度模塊的第三個(gè)功能是為“判斷者”提供標(biāo)注文字、標(biāo)注文字對(duì)應(yīng)的圖片以及經(jīng)過(guò)組合搜索和相似度計(jì)算之后挑選出來(lái)的另外幾張圖片,首先核心模塊會(huì)將標(biāo)注文字進(jìn)行切詞和關(guān)鍵字提取,然后對(duì)關(guān)鍵字進(jìn)行一組隨機(jī)組合之后從系統(tǒng)中檢索出相關(guān)的候選圖片,根據(jù)這些圖片的感知哈希值挑選出和標(biāo)注文字對(duì)應(yīng)圖片的漢明距離超過(guò)閾值的圖片,避免出現(xiàn)極度相似甚至相同的圖片(圖片的感知哈希值是之前通過(guò)“數(shù)據(jù)預(yù)處理”計(jì)算得出的)。

         。3)標(biāo)注管理:

          標(biāo)注管理負(fù)責(zé)將用戶的標(biāo)注數(shù)據(jù)更新到后臺(tái)標(biāo)注數(shù)據(jù)集中,數(shù)據(jù)是以圖片的URL作為Key,一個(gè)圖片可以對(duì)應(yīng)多段標(biāo)注文字(如表1),每段標(biāo)注文字可以被多個(gè)“判斷者”判斷,系統(tǒng)會(huì)記錄每個(gè)“判斷者”的判斷結(jié)果(如表2):

          【說(shuō)明】:表1和表2只列出關(guān)鍵的數(shù)據(jù)字段,實(shí)際系統(tǒng)中會(huì)包括標(biāo)注時(shí)間、判斷時(shí)間、標(biāo)注IP、判斷IP等等更多的信息,這些信息會(huì)用于系統(tǒng)防作弊;

          【文章小結(jié)】:

          通過(guò)本文所描述的標(biāo)注游戲能夠快速地獲得大量較為準(zhǔn)確的圖片標(biāo)注信息,對(duì)于提高圖片搜索效果有很大的作用,體現(xiàn)在兩個(gè)方面:

         。1)圖片搜索準(zhǔn)確率:由于引入精確度較高的標(biāo)注數(shù)據(jù),使得圖片的信息更為全面,搜索準(zhǔn)確度更高;

         。2)圖片搜索召回率:對(duì)于沒(méi)有“周邊文本”的圖片,原來(lái)比較難在搜索引擎中被索引,通過(guò)標(biāo)注系統(tǒng)標(biāo)注之后能夠索引建庫(kù),從而提高圖片的召回率。

          游戲采用的標(biāo)注方法具有如下特點(diǎn):

         。1)防標(biāo)注作弊功能:由于“描述者”和“判斷者”是通過(guò)系統(tǒng)的“核心調(diào)度”模塊按照一定的算法進(jìn)行選取,使得用戶作弊的成本很高,從而避免了用戶作弊行為,使得最終的圖片標(biāo)注數(shù)據(jù)準(zhǔn)確度較高;

         。2)對(duì)用戶標(biāo)注進(jìn)行有效的引導(dǎo),使得用戶標(biāo)注出更為精細(xì)的,有區(qū)分度的標(biāo)注信息,系統(tǒng)通過(guò)對(duì)標(biāo)注文字進(jìn)行切詞提取出關(guān)鍵字,并對(duì)關(guān)鍵字進(jìn)行多組組合之后從圖片數(shù)據(jù)庫(kù)中提取出相關(guān)圖片,并且通過(guò)感知哈希函數(shù)計(jì)算漢明距離,從而消除相似度極高甚至一樣的圖片,使得提供給“判斷者”的圖片具有區(qū)分度,也能夠促使“描述者”進(jìn)一步精確標(biāo)注圖片。


        本文出自:億恩科技【mszdt.com】

        服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

      2. 您可能在找
      3. 億恩北京公司:
      4. 經(jīng)營(yíng)性ICP/ISP證:京B2-20150015
      5. 億恩鄭州公司:
      6. 經(jīng)營(yíng)性ICP/ISP/IDC證:豫B1.B2-20060070
      7. 億恩南昌公司:
      8. 經(jīng)營(yíng)性ICP/ISP證:贛B2-20080012
      9. 服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:0371-60135900
      10. 虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:0371-60135900
      11. 專注服務(wù)器托管17年
        掃掃關(guān)注-微信公眾號(hào)
        0371-60135900
        Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權(quán)所有  地址:鄭州市高新區(qū)翠竹街1號(hào)總部企業(yè)基地億恩大廈  法律顧問(wèn):河南亞太人律師事務(wù)所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號(hào)
          1
         
         
         
         

        0371-60135900
        7*24小時(shí)客服服務(wù)熱線