如今,面對(duì)快速發(fā)展的網(wǎng)絡(luò)科技水平,互聯(lián)網(wǎng)已逐漸步入人工智能與大數(shù)據(jù)管理時(shí)代,而云計(jì)算作為一種高效的技術(shù)也提供了強(qiáng)大的技術(shù)支持。
如今,面對(duì)快速發(fā)展的網(wǎng)絡(luò)科技水平,互聯(lián)網(wǎng)已逐漸步入人工智能與大數(shù)據(jù)管理時(shí)代,而云計(jì)算作為一種高效的技術(shù)也提供了強(qiáng)大的技術(shù)支持。
關(guān)于Cloudera和Hadoop的關(guān)系,想必大家已經(jīng)了解和知道了,作為Hadoop系統(tǒng)的首創(chuàng)者組織,人們對(duì)Cloudera在數(shù)據(jù)領(lǐng)域的積累已經(jīng)非常了解,而當(dāng)云計(jì)算和人工智能成為2017年話題的時(shí)候,Cloudera大中華區(qū)總經(jīng)理及公司副總裁凌琦也分享了他的理解和Cloudera在做的事情。
機(jī)器學(xué)習(xí)與人工智能
事實(shí)上,Cloudera作為軟件平臺(tái)廠商,其業(yè)務(wù)主要是針對(duì)大數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的管理,對(duì)于機(jī)器學(xué)習(xí)和人工智能的支持。這樣的一個(gè)平臺(tái),需要跟很多的解決方案合作伙伴一起合作,到現(xiàn)在為止,該公司在全國已經(jīng)擁有了超過200家的合作伙伴。經(jīng)歷了兩年的發(fā)展,Cloudera也在北京、上海、廣深,都有團(tuán)隊(duì),也建立了針對(duì)客戶的支持體系。
而對(duì)于機(jī)器學(xué)習(xí)和人工智能,在凌琦看來,對(duì)Cloudera而言,人工智能并不是一個(gè)新的話題,“我在讀研究生的時(shí)候其中一個(gè)研究方向就是人工智能,那時(shí)候的人工智能更多是基于規(guī)則的系統(tǒng),今天的人工智能和過去有所不同,主要是:第一,計(jì)算能力提升了;第二,也是更重要的一點(diǎn),是有大數(shù)據(jù)的支持。通過機(jī)器學(xué)習(xí)的模型,投入大量的數(shù)據(jù)進(jìn)行培訓(xùn)和訓(xùn)練,最后形成一個(gè)在實(shí)際的應(yīng)用環(huán)境當(dāng)中可以使用的模型?!?
機(jī)器學(xué)習(xí)時(shí)代跟過去時(shí)代的不同。第一是計(jì)算成本的降低;第二是整個(gè)數(shù)據(jù)量的增加。今天的人工智能需要大量的數(shù)據(jù),所以在數(shù)據(jù)的準(zhǔn)備、獲取、處理以及治理方面,數(shù)據(jù)的生命周期需要很好地進(jìn)行管理。有了這些數(shù)據(jù)之后,數(shù)據(jù)科學(xué)家運(yùn)用各種各樣的分析和人工智能的模型進(jìn)行機(jī)器學(xué)習(xí)的訓(xùn)練和模型的驗(yàn)證,這是一個(gè)循環(huán)的過程、不斷在改進(jìn)的過程。最后,把它應(yīng)用到生產(chǎn)環(huán)境當(dāng)中去。
應(yīng)用到生產(chǎn)環(huán)境當(dāng)中,也包括對(duì)生產(chǎn)環(huán)境的實(shí)時(shí)管理和運(yùn)維,以及通過對(duì)生產(chǎn)環(huán)境當(dāng)中所取得的數(shù)據(jù)的離線分析,再一次豐富數(shù)據(jù)、改變它的模型??凑麄€(gè)過程能夠發(fā)現(xiàn),如果僅僅談到人工智能,其實(shí)很大程度上是在于機(jī)器學(xué)習(xí)和分析。
從整個(gè)流程看,企業(yè)需要很大程度上在數(shù)據(jù)準(zhǔn)備以及最后的運(yùn)營管理部分投入。一個(gè)能夠支持機(jī)器學(xué)習(xí)和人工智能的好的平臺(tái),必須要滿足這些功能:各種環(huán)境下的支持,包括公有云和私有云的支持;以及良好的擴(kuò)展性,即有很好的彈性;成本、以及安全性和運(yùn)維的支持。從這個(gè)角度看,Cloudera的數(shù)據(jù)管理平臺(tái),實(shí)際上為人工智能提供了一個(gè)很好的運(yùn)營環(huán)境。
AI技術(shù)水平的突破
正如凌琦所言,所有的人工智能、機(jī)器學(xué)習(xí)需要的數(shù)據(jù),包括管理數(shù)據(jù)和清理數(shù)據(jù)以及長期增強(qiáng)這個(gè)數(shù)據(jù)平臺(tái),是能夠做的事情。那么,Cloudera在AI領(lǐng)域里有哪些規(guī)劃?在哪些方面取得了突破性進(jìn)展?
凌琦回答記者:Cloudera的業(yè)務(wù)包括三塊:一是以開源為基礎(chǔ)的軟件平臺(tái),我們稱為CDH;第二,專業(yè)服務(wù);第三,培訓(xùn)業(yè)務(wù)。
實(shí)際上,軟件業(yè)務(wù)占Cloudera業(yè)務(wù)收入的80%甚至更多,是我們的核心部分。今天在Hadoop上的機(jī)器學(xué)習(xí)的平臺(tái),需要管理更大的數(shù)據(jù),能夠在一個(gè)完整的平臺(tái)上使機(jī)器學(xué)習(xí)充分利用所有的數(shù)據(jù),而不是一個(gè)分散的豎井式的數(shù)據(jù)對(duì)象。可以看到,我們現(xiàn)在整個(gè)平臺(tái)所能夠管理的規(guī)模越來越大,安全性越來越好。
第二,Cloudera在機(jī)器學(xué)習(xí)上,大量使用新的分布式計(jì)算引擎Spark。Spark是現(xiàn)在在機(jī)器學(xué)習(xí)過程當(dāng)中一個(gè)非常重要的計(jì)算引擎,當(dāng)然也還有其他的一些計(jì)算引擎。Spark在Hadoop領(lǐng)域里面是最重要的機(jī)器學(xué)習(xí)引擎,在這個(gè)部分,Cloudera現(xiàn)在是最大的貢獻(xiàn)者,同時(shí)也是最早把Spark引入到整個(gè)Hadoop平臺(tái)當(dāng)中,進(jìn)行全面支持的廠商.
第三,今天的很多對(duì)機(jī)器學(xué)習(xí)進(jìn)行研究、應(yīng)用的人當(dāng)中,除了傳統(tǒng)的數(shù)據(jù)分析師之外,還有很多數(shù)據(jù)科學(xué)家。數(shù)據(jù)分析師過去更多的是使用SQL這些描述性的語言,它能夠進(jìn)行一些分析,但是很多的數(shù)據(jù)科學(xué)家使用一些所他們熟悉的編程語言,比如R、Python、Scala,還有一些傳統(tǒng)的數(shù)據(jù)科學(xué)家使用數(shù)學(xué)物理的程序庫。
那么對(duì)于使這些數(shù)據(jù)科學(xué)家受制于系統(tǒng)的能力、不能使用的環(huán)境,如何使他們能自由地選擇熟悉的編程語言或者程序庫?Cloudera開發(fā)了“數(shù)據(jù)科學(xué)工作臺(tái)”(Data Science Work Bench)。在兩三個(gè)月之前發(fā)布了,它可以在一個(gè)電腦上能夠充分使數(shù)據(jù)科學(xué)家大量地直接使用Hadoop里面的數(shù)據(jù),而不是像過去只取一個(gè)子集。用戶可以直接使用Hadoop里面的數(shù)據(jù)。同時(shí)它又是運(yùn)行在虛擬的Docker的沙箱當(dāng)中,非常安全、不會(huì)破壞實(shí)際的運(yùn)營環(huán)境,而且可以支持很多用戶可以同時(shí)使用。每個(gè)用戶都能按照自己的選擇,想用R就用R,想用Python就用Python,那個(gè)工具目前已經(jīng)發(fā)布,受到了很多用戶的歡迎。
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:
0371-60135995
服務(wù)熱線:
0371-60135900