激情五月天婷婷,亚洲愉拍一区二区三区,日韩视频一区,a√天堂中文官网8

<ul id="buwfs"><strike id="buwfs"><strong id="buwfs"></strong></strike></ul>
    <output id="buwfs"></output>
  • <dfn id="buwfs"><source id="buwfs"></source></dfn>
      <dfn id="buwfs"><td id="buwfs"></td></dfn>
      <div id="buwfs"><small id="buwfs"></small></div>
      <dfn id="buwfs"><source id="buwfs"></source></dfn>
      1. <dfn id="buwfs"><td id="buwfs"></td></dfn>
        億恩科技有限公司旗下門(mén)戶(hù)資訊平臺(tái)!
        服務(wù)器租用 4元建網(wǎng)站

        開(kāi)源大數(shù)據(jù)技術(shù)架設(shè)高校連接企業(yè)新橋梁

        時(shí)下,大數(shù)據(jù)已經(jīng)走出互聯(lián)網(wǎng)行業(yè),在金融、交通、醫(yī)療等眾多傳統(tǒng)行業(yè)得到深入應(yīng)用,然而如果說(shuō)高校去玩大數(shù)據(jù),聽(tīng)起來(lái)似乎還是不那么“靠譜”——首先,高校很難獲得真實(shí)生產(chǎn)數(shù)據(jù);其次,高校也無(wú)法貼近真實(shí)的業(yè)務(wù)?;谝陨系缺姸嘣?,高校很難真正地進(jìn)軍大數(shù)據(jù)。

        時(shí)下,大數(shù)據(jù)已經(jīng)走出互聯(lián)網(wǎng)行業(yè),在金融、交通、醫(yī)療等眾多傳統(tǒng)行業(yè)得到深入應(yīng)用,然而如果說(shuō)高校去玩大數(shù)據(jù),聽(tīng)起來(lái)似乎還是不那么“靠譜”——首先,高校很難獲得真實(shí)生產(chǎn)數(shù)據(jù);其次,高校也無(wú)法貼近真實(shí)的業(yè)務(wù)?;谝陨系缺姸嘣?,高校很難真正地進(jìn)軍大數(shù)據(jù)。然而,在近日的“AMPCamp@China大數(shù)據(jù)訓(xùn)練營(yíng)”,筆者看到了借助Spark這個(gè)大數(shù)據(jù)計(jì)算框架,眾多高校已經(jīng)和企業(yè)達(dá)成技術(shù)層面的合作,似乎也獲得了接觸真實(shí)業(yè)務(wù)的契機(jī)。

        5月底,在英特爾亞太研發(fā)有限公司的大力支持下,由UC Berkeley發(fā)起的AMPCamp首次在美國(guó)本土之外舉辦,落戶(hù)中國(guó),圍繞Spark整個(gè)生態(tài)圈進(jìn)行了深度的分享。

        眾所周知,Spark發(fā)源于UC Berkeley AMPLab,后由Databricks護(hù)航,當(dāng)下已成為大數(shù)據(jù)領(lǐng)域風(fēng)頭最勝的開(kāi)源計(jì)算框架。然而,當(dāng)Michael Franklin在AMPCamp@China上秀出Berkeley當(dāng)下的數(shù)據(jù)分析平臺(tái)時(shí),筆者仍然被震撼了,如圖所示,整個(gè)架構(gòu)中所有藍(lán)色部分都出自AMPLab之手。在這之外,我們同樣可以讀出,UC Berkeley通過(guò)開(kāi)源技術(shù)已經(jīng)深入大數(shù)據(jù)的實(shí)踐中。那么,通過(guò)開(kāi)源大數(shù)據(jù)技術(shù),其他高校,更關(guān)鍵的是國(guó)內(nèi)高校又有什么樣的發(fā)展呢?在活動(dòng)上,筆者訪(fǎng)問(wèn)了英特爾大數(shù)據(jù)首席架構(gòu)師戴金權(quán)、南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博導(dǎo)黃宜華以及華東師范大學(xué)計(jì)算機(jī)與技術(shù)系教授周傲英。

        通過(guò)戴金權(quán)了解到,英特爾大數(shù)據(jù)研發(fā)團(tuán)隊(duì)是個(gè)全球性的團(tuán)隊(duì),遍布中國(guó)、美國(guó)、印度等多個(gè)國(guó)家。而值得一提的是,其中80%以上的研發(fā)人員在中國(guó)。在開(kāi)源社區(qū)方面,Intel投入了大量的精力,覆蓋Spark、Hadoop、Hbase、Hive等眾多項(xiàng)目,就2014年來(lái)看,英特爾在開(kāi)源社區(qū)上的貢獻(xiàn)僅次于Cloudera、HortonWorks、雅虎等,總貢獻(xiàn)量排第四位,在不同項(xiàng)目上擁有23位commiter,以及大量的貢獻(xiàn)者。

        此外,英特爾從2012年開(kāi)始就與AMPLab進(jìn)行緊密合作,在Spark落地上投入了大量精力,貢獻(xiàn)僅次于UC Berkeley和Databricks,在如Tachyon等Spark生態(tài)圈組件上也有較強(qiáng)的投入。在高校之外,英特爾與許多互聯(lián)網(wǎng)公司達(dá)成合作,讓Spark落地具體業(yè)務(wù);更與Cloudera等知名大數(shù)據(jù)公司合作,旨在打造新一代的大數(shù)據(jù)分析解決方案。圍繞著大數(shù)據(jù)開(kāi)源技術(shù),英特爾與開(kāi)源社區(qū)、工業(yè)界、學(xué)術(shù)界擁有著大量合作。

        專(zhuān)訪(fǎng)期間,戴金權(quán)還分享了幾個(gè)大家對(duì)Spark比較關(guān)注的問(wèn)題:

        MapReduce vs. Spark。Spark可以認(rèn)為是MapReduce的超集,理論上MapReduce能做的,Spark都可以做到,所以今天越來(lái)越多的應(yīng)用(特別是新的應(yīng)用),都在從MapReduce的框架向Spark遷移。今天Hadoop MapReduce的最大優(yōu)勢(shì)是在于它的成熟度,經(jīng)過(guò)了工業(yè)界長(zhǎng)時(shí)間、在大規(guī)模集群規(guī)模和處理規(guī)模上的驗(yàn)證,在穩(wěn)定性、運(yùn)維工具等方面有比較好的支持;但是隨著業(yè)界對(duì)Spark的越來(lái)越多的應(yīng)用,Spark在這方面也在快速改進(jìn)中。

        DataFrame vs. SchemaRDD。DataFrame和SchemaRDD理論上來(lái)說(shuō)并沒(méi)有本質(zhì)的區(qū)別,事實(shí)上在今天的實(shí)現(xiàn)里,SchemaRDD是DataFrame的type alias。DataFrame是從用戶(hù)和Data Scientist的角度,提供對(duì)用戶(hù)更加友好的接口,并為Spark里的其他模塊(如ML和SparkR)提供更自然的API和抽象。DataFrame在Spark 1.3中是屬于實(shí)驗(yàn)性質(zhì)的,但隨著Spark 1.4的推出,會(huì)得到更多的應(yīng)用(如SparkR的接口就是基于DataFrame的)。

        Tungsten。Tungsten的目標(biāo)是提高Spark在現(xiàn)代硬件平臺(tái)上的運(yùn)行效率,大多數(shù)的改進(jìn)會(huì)在今年(Spark 1.4、1.5、1.6)完成;如在Spark 1.4中,已經(jīng)加入了對(duì)DataFrame aggregation操作和對(duì)Spark里sort based shuffle的改進(jìn)。

        運(yùn)維。正像之前說(shuō)的,Spark在運(yùn)維工具等方面還有很多工作要做,包括和YARN環(huán)境更好的整合等;同時(shí)英特爾也在和一些用戶(hù)一起嘗試用container(Docker)來(lái)構(gòu)建一些DevOps自動(dòng)化的框架。

        黃宜華表示,PASA實(shí)驗(yàn)室成立于2009年,是全國(guó)高校中最早完全從事大數(shù)據(jù)技術(shù)研究的團(tuán)隊(duì),開(kāi)展了一系列的技術(shù)研究和應(yīng)用研究工作,有很多國(guó)家項(xiàng)目和省部級(jí)項(xiàng)目,在業(yè)界有廣泛的合作,包括英特爾、谷歌,現(xiàn)在和微軟亞洲研究院、中興通訊、百度、中科院計(jì)算所等國(guó)內(nèi)外知名的企業(yè)、研究機(jī)構(gòu)都在大數(shù)據(jù)方面專(zhuān)門(mén)進(jìn)行合作研究。近兩年來(lái),PASA更與UC Berkeley AMP實(shí)驗(yàn)室圍繞Spark展開(kāi)合作,同時(shí)也是Apache Spark和Tachyon的貢獻(xiàn)者。此外,在2011年參與了Intel Hadoop發(fā)行版的學(xué)術(shù)研究合作。

        在Spark與Tachyon方面,自2014年,PASA實(shí)驗(yàn)室和UC Berkeley和英特爾三方開(kāi)展了新的優(yōu)化和Tachyon系統(tǒng)功能增強(qiáng)的研發(fā)。在這兩個(gè)方面,實(shí)驗(yàn)室目前大概有近20項(xiàng)性能優(yōu)化和功能增強(qiáng)的研究成果和程序模塊,補(bǔ)丁已經(jīng)貢獻(xiàn)到開(kāi)源的Spark和Tachyon系統(tǒng)里面,在這個(gè)里面有一個(gè)比較好的成果,實(shí)驗(yàn)室把Tachyon第一次和Spark結(jié)合得非常緊密,解決了Spark原來(lái)基于Java性能比較低的問(wèn)題,使得現(xiàn)在Spark的計(jì)算性能有了顯著提高,這個(gè)一個(gè)比較重要的貢獻(xiàn)。

        在Tachyon工作的基礎(chǔ)上,南大幫UC Berkeley做了Tachyon Perf——內(nèi)存文件系統(tǒng)的性能評(píng)測(cè)工具,現(xiàn)在已經(jīng)集成到了Tachyon系統(tǒng)里面。在這個(gè)工作的基礎(chǔ)上,實(shí)驗(yàn)室進(jìn)一步做了一個(gè)通用的,就是全球第一個(gè)通用化的分布式文件系統(tǒng)的評(píng)測(cè)工具,叫DFS-Perf,可對(duì)各種各樣的分布式文件系統(tǒng),對(duì)各種負(fù)載進(jìn)行性能評(píng)測(cè)的工具。

        從周傲英了解到,在2012年,華東師范大學(xué)就與SAP合作,從事內(nèi)存計(jì)算相關(guān)研發(fā),并成立了云計(jì)算和大數(shù)據(jù)研究中心,旨在促進(jìn)學(xué)科交叉,實(shí)現(xiàn)協(xié)同創(chuàng)新,也打造了一個(gè)平臺(tái),為不同領(lǐng)域的人提供一個(gè)交流的平臺(tái)。而隨后,華東師范大學(xué)一直與AMPLab進(jìn)行深入的交流。

        專(zhuān)訪(fǎng)期間,周傲英表示,推動(dòng)IT發(fā)展的一直都不是IT公司。著眼大數(shù)據(jù)與云計(jì)算,其發(fā)展與互聯(lián)網(wǎng)公司有著密不可分的關(guān)系。而在這發(fā)展的過(guò)程中,擺脫慣性思維帶來(lái)的影響至關(guān)重要。短短幾年,許多知名機(jī)構(gòu)就完成了從小型機(jī)、企業(yè)數(shù)據(jù)庫(kù)、虛擬化到商用硬件+開(kāi)源技術(shù)(或自主研發(fā))的轉(zhuǎn)變,其中有些東西是大多人想都不敢想的,更是大多機(jī)構(gòu)不愿意去做的。這是一個(gè)充滿(mǎn)機(jī)遇的時(shí)代,但是相關(guān)工作者首先要做的就是去想。

        在敢想之外,另一個(gè)就是應(yīng)用——發(fā)展是創(chuàng)新驅(qū)動(dòng)的,而創(chuàng)新很顯然是追逐機(jī)構(gòu)的需求??v觀當(dāng)下,Hadoop、Spark、Docker等熱門(mén)技術(shù)無(wú)一不是在大環(huán)境中特定的需求所催生的。最后一點(diǎn)就是推廣,而當(dāng)下開(kāi)源這種方式已經(jīng)被廣泛的證明其有效性,關(guān)鍵的是,它能讓更的人和各行各業(yè)的人參與進(jìn)去。

        最后,周傲英說(shuō)道,談大數(shù)據(jù)領(lǐng)域的技術(shù),其實(shí)很多都是發(fā)展了多年的老技術(shù),比如Deep Learning,之所以現(xiàn)在大紅大紫,其一大部分原因還是歸結(jié)到大數(shù)據(jù)全景圖中的最上層——業(yè)務(wù)應(yīng)用以及變現(xiàn)。因此,系統(tǒng)架構(gòu)師和數(shù)據(jù)科學(xué)家是這個(gè)大數(shù)據(jù)時(shí)代最需要的兩類(lèi)人,這類(lèi)人更多的需要計(jì)算機(jī)的知識(shí),而且這類(lèi)人更多的是需要數(shù)學(xué)的知識(shí),但是首先都要理解應(yīng)用。因此,華東師范大學(xué)希望成立這樣一個(gè)學(xué)院,去理解數(shù)據(jù)科學(xué)與工程這樣的學(xué)科,數(shù)據(jù)工程與工程,我們把它當(dāng)成一個(gè)學(xué)科,這個(gè)學(xué)科到底有什么內(nèi)涵,需要什么樣的知識(shí)體系,這正是華東師范大學(xué)正在做的事情。

        河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專(zhuān)注服務(wù)器托管租用,是國(guó)家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營(yíng)商。億恩為近五十萬(wàn)的用戶(hù)提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶(hù)不斷的獲得更大的收益。
        服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話(huà):0371-60135900
        虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話(huà):0371-55621053
        網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話(huà):0371-60135995
        服務(wù)熱線(xiàn):0371-60135900

        0
        0
        分享到:責(zé)任編輯:小巍

        相關(guān)推介

        共有:0條評(píng)論網(wǎng)友評(píng)論:

        驗(yàn)證碼 看不清換一張 換一張

        親,還沒(méi)評(píng)論呢!速度搶沙發(fā)吧!