百度陳尚義:百度新存儲系統(tǒng)應(yīng)對大數(shù)據(jù)挑戰(zhàn) |
發(fā)布時間: 2012/6/22 10:34:02 |
近日,百度技術(shù)委員會理事長陳尚義應(yīng)邀出席第四屆中國云計算大會“云計算與大數(shù)據(jù)專題論壇”。同時出席論壇的還有電子學(xué)會名譽理事長、原信息產(chǎn)業(yè)部部長吳基傳,中國電子學(xué)會副理事長劉汝林,北航計算機學(xué)院院長呂衛(wèi)鋒等產(chǎn)業(yè)界高端專家、學(xué)者。
陳尚義在論壇上作題為“百度大數(shù)據(jù)挑戰(zhàn)及應(yīng)對”的主題演講,從百度的數(shù)據(jù)特點及對存儲系統(tǒng)的要求出發(fā),介紹了百度存儲系統(tǒng)的先進性。 “百度儲存和處理的數(shù)據(jù)主要包括:網(wǎng)頁和超鏈的數(shù)據(jù)量、日志、數(shù)據(jù)倉庫、廣告數(shù)據(jù)、UGC(用戶創(chuàng)造的數(shù)據(jù))” 陳尚義紹了百度的數(shù)據(jù)特點,并用“海量”和“復(fù)雜”來形容百度數(shù)據(jù)特點。“百度擁有的數(shù)據(jù)總量上百PB,日處理量達幾十PB,且呈現(xiàn)高速增長的態(tài)勢。而且,這些數(shù)據(jù)的特點是,結(jié)構(gòu)化與非結(jié)構(gòu)化并存,系統(tǒng)數(shù)據(jù)對數(shù)據(jù)一致性要求強弱程度不同,用戶對數(shù)據(jù)的訪問行為存在不確定性,即在毫無征兆的情況下,對某些信息進行突發(fā)式訪問等。這些特點使得百度要應(yīng)對復(fù)雜的存儲要求。” 如何應(yīng)對這樣的挑戰(zhàn),陳尚義通過解析百度的云儲存架構(gòu)及優(yōu)勢,為與會嘉賓解開了疑惑。其中,陳尚義特別指出,百度對存儲系統(tǒng)做了全局優(yōu)化,包括針對訪問模式的優(yōu)化、針對硬件特性的優(yōu)化、依訪問模式定制硬件、提升單機性能、與CDN系統(tǒng)實現(xiàn)更優(yōu)結(jié)合。 “比如,在硬件特性優(yōu)化方面,百度對單機的硬件(CPU、內(nèi)存、硬盤、SSD等)進行合理配比,以實現(xiàn)單機資源的充分利用。”陳尚義解釋說,“又如,在與CDN系統(tǒng)實現(xiàn)更優(yōu)結(jié)合方面,百度將最常被訪問的數(shù)據(jù)自動緩存到距離用戶最近的數(shù)據(jù)中心。” 在介紹百度儲存優(yōu)勢時,陳尚義還介紹了李彥宏發(fā)明的超鏈分析技術(shù)。“這一技術(shù)早在1999年就被授予了專利,比Google創(chuàng)始人佩奇申請的Pagerank專利還早,是搜索引擎產(chǎn)業(yè)發(fā)展的基石。原中國計算機學(xué)會理事長、中國工程院院士李國杰先生稱贊‘李彥宏在推動計算技術(shù)和產(chǎn)業(yè)的發(fā)展中做出了可載入史冊的歷史性貢獻’。” 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |