作為國內計算領域規(guī)格最高、規(guī)模最大的學術會議,“2012中國計算機大會”上,“大數據”是出現頻率最高的主題詞,幾乎每個主講者,每場論壇,都涉及這幾個字。同時,中國計算機學會也在大會舉行期間,正式成立了專家委員會,中國工程院院士李國杰擔任主任。一年來,“大數據”3個字持續(xù)升溫,社會對于大數據的關注也從最初的必要性、重要性轉向如何獲得數據,如何進行處理,如何進行利用。
“大數據”面臨大挑戰(zhàn)
計算機大會專門組織的“大數據主題論壇”可謂高規(guī)格陣容,主講者有中國工程院院士、中科院計算機所研究員李國杰,中國工程院院士東北大學教授柴天佑,中國科學院院士、北京大學教授鄂維南;中國科學院院士、上海交通大學副校長梅宏等。
“IT技術廣泛的應用使我們獲得了巨大數據,從這些數據當中我們可以得到很多東西,也使計算機系統(tǒng)、軟件技術、生產生活,包括數學基礎研究面臨新的挑戰(zhàn)和機遇?!闭搲鞒秩恕揽萍即髮W王懷民教授說。
梅宏院士認為信息界當前的幾個最熱點的問題,大數據、云計算、移動互聯網本質上都是互聯網計算及其延伸產生的效果,包括更快的網絡帶寬,更廣大的網絡接入,更強的計算能力,更小的計算設備和更低的存儲成本。
不過,他同時也指出,大數據不僅帶來對軟件技術、編程語言的挑戰(zhàn),同時也讓人類社會面臨著能耗挑戰(zhàn),因為目前全球范圍內的數據中心服務器和散熱系統(tǒng)每年大概需要消耗30億瓦的電能,而這相當于20座核電站的發(fā)電量。一個大型數據中心的能耗非常巨大,甚至比一座中型美國城市的耗電量還要高。
“歷史上設計計算機系統(tǒng)的主要目標是充分發(fā)揮CPU的計算性能,較少關心如何滿足持續(xù)的數據存取要求?,F在存儲問題尚未解決,又遇上大數據應用,計算機系統(tǒng)的負載發(fā)生了本質性變化,雖然CPU進展很快,每年50%~60%的增長,但負載增加更大,以前數據是圍著CPU轉的,現在變過來了,是圍繞數據轉。”李國杰院士認為,計算機系統(tǒng)結構需要革命性的重構,重點是數據如何“搬運”,要由過去的“大象搬木頭”轉變?yōu)椤拔浵伆岽竺住薄?/span>
李國杰院士透露,中科院網絡數據科學與技術重點實驗室的“天璣網絡大數據平臺”,已經完成了面向網絡大數據、金融大數據處理的一體機原型系統(tǒng),并已經在淘寶、騰訊等相關企業(yè)和大數據情報處理領域進行了試用。
中國工程院院士柴天佑則描述了工業(yè)大數據的特殊:數據量大、類型多、變化速度快,復雜工業(yè)系統(tǒng)中許多機理不清,難以用數學模型來描述其特征,大數據的應用技術為研究復雜工業(yè)系統(tǒng)開辟了新途徑。
大數據研究和應用不能“忽悠”
“大數據是什么呢?每個人都有每個人的理解,我自己也是帶著問題來的?!?013年中國計算機學會海外杰出貢獻獎獲得者、美國特拉華大學電子與計算機工程終身教授高光榮在做大會報告時,展示了“瞎子摸象”的照片。這位從事計算機系統(tǒng)結構研究的國際知名學者介紹了自己近些年從事數據研究的成果。不過,他認為“大數據”的提法過熱,明顯有炒作的味道,急于求成,“做研究不要貪快,有些研究不會立竿見影,一項研究工作需要很多年。無論是美國還是中國,我們在大數據研究上,都才剛剛開始?!彼昧艘粋€新學會的詞:不能“忽悠”。
不過,在大數據主題論壇上,高光榮教授仍未得到答案。
當李國杰院士從系統(tǒng)結構的角度,柴天佑院士從工業(yè)應用,鄂維南院士是從數學的角度,梅宏院士從軟件的角度進行一一闡述之后,一名學生提出了一個問題:“能不能請各位老師用一句話說說大數據的本質是什么?大數據帶來什么樣的變化?”
一句話說清一個問題似乎讓主講者都有些為難。
柴天佑院士認為,從用大數據進行研究的角度來談,超出現有的理論方法技術、工具,能處理一個數據群就叫大數據。
而李國杰院士認為,大數據被“大”字給忽悠了,它更多的是多樣化、變化快,不僅有快數據,還有真?zhèn)蝺煞矫娴臄祿?。大數據是一個處理數據的方法,不是數據本身的規(guī)模。
梅宏直接表示很難回答:“大數據這個詞不是技術生產科學意義比較明確的定義,它給人的聯想太多的空間了。用一句話我說不出來?!?/span>
之前,他提到大數據將不會是一個可完全“解決”的問題,只能是逐步“逼近”、緩解的技術,目前尚不存在有效的大數據技術。
針對研究人員如何獲數據的問題,李國杰院士回答,政府應該是首要的公眾數據來源者,政府掌握大量的各類數據,但是現在數據公開還沒有做好。此外,研究人員還可以向企業(yè)要數據,通過協(xié)議相互交換,搞技術的、做科學研究的共同交流才能出成果。
大數據研究人員短缺
計算機大會的特邀講者,來自美國北卡來羅納州立大學分校史德利·阿霍爾特(Stahley.Ahalt)教授是創(chuàng)新計算研究所的負責人,他認為,大數據已經存在,需要新的工具來使數據消費者進行大規(guī)模應用。
在他看來,數據的產生者包括大學、政府、醫(yī)療保健機構、工業(yè)界等,而數據使用者是科學家、公民、政府、醫(yī)務人員、商業(yè)界?!皬?010年開始,每兩天產生的數據就相當于歷史上到2003年產生的數據總和。所以需要數據科學,對這些數據進行分析、挖掘,利用。互聯網使得數據的移動、共享和發(fā)現更容易;更快的處理器,更多和更廉價的存儲容量”
他介紹了大數據在美國社會管理、風暴潮預測以及生物基因診斷方面的成功應用。一家名為美國快捷藥方的公司宣稱已有10億個藥方數據用于分析,使病人的郵購處方更為合理經濟。他們通過預測模型,找到了400個影響因素,來發(fā)現因病人不遵循用藥規(guī)定帶來的風險,而這一項每年帶來的損失高達3170億美元。UPS公司通過分析從成千上萬臺送貨車上傳感器傳回的數據,減少530萬英里行程,減少發(fā)動機的閑置達1000萬分鐘,節(jié)省65萬加倫的燃料,減少二氧化碳排放量達6500公噸。
阿霍爾特教授提供了一系列數字,大數據的應用可以使美國每年節(jié)省醫(yī)療節(jié)省費用達到3000億美元,這相當于西班牙全年的醫(yī)療保健花費;歐洲公共管理部門每年可節(jié)省2500億歐元;節(jié)省1%的汽油油耗,15年可以節(jié)省680億美元;采用數據信息決策的公司,可使生產率提升5%~6%。
而因為大數據開發(fā)及使用,也可以創(chuàng)造無數新的工作機會。全球范圍內,到2015年,大數據和分析工作機會有望超過400萬個。
每個大數據的工作能夠產生3個相關的工作。對于美國而言,到2015年,將有190萬新的大數據工作機會,但將由于人才短缺,僅有1/3的崗位能招到人。2020年,美國針對數據相關的管理員和軟件開發(fā)者的需求預計增長約32%。
在2012年的一項調查中,78%的被調查者認為確實存在大數據方面的人才短缺。那么大數據科學家要具備什么樣的IT技能呢?阿霍爾特表示,數據科學家要對計算機科學背景有全面了解,包括對應用軟件、建模、數據、分析等,要有商業(yè)頭腦,以及對數據提煉融合的能力。數據科學家還“必須能夠獲取數據集,對它們進行數學建模,以及懂得建立模型的所需要的數學理論。他們必須能發(fā)現并闡明數據揭示的問題,即從數據中發(fā)現合適的問題。”
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務器托管租用,是國家工信部認定的綜合電信服務運營商。億恩為近五十萬的用戶提供服務器托管、服務器租用、機柜租用、云服務器、網站建設、網站托管等網絡基礎服務,另有網總管、名片俠網絡推廣服務,使得客戶不斷的獲得更大的收益。
服務器/云主機 24小時售后服務電話:
0371-60135900
虛擬主機/智能建站 24小時售后服務電話:
0371-55621053
網絡版權侵權舉報電話:
0371-60135995
服務熱線:
0371-60135900