“大數(shù)據(jù)”通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,亦指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長(zhǎng)期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對(duì)大數(shù)據(jù)應(yīng)用寄予了無(wú)限的期望,商業(yè)信息積累的越多,價(jià)值也就越大,只不過(guò)我們需要一個(gè)方法把這些價(jià)值挖掘出來(lái)。
“大數(shù)據(jù)”通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,亦指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長(zhǎng)期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對(duì)大數(shù)據(jù)應(yīng)用寄予了無(wú)限的期望,商業(yè)信息積累的越多,價(jià)值也就越大,只不過(guò)我們需要一個(gè)方法把這些價(jià)值挖掘出來(lái)。
為什么現(xiàn)在要大數(shù)據(jù)?
與以往相比,我們除了有能力存儲(chǔ)更多的數(shù)據(jù)量之外,還要面對(duì)更多的數(shù)據(jù)類(lèi)型。這些數(shù)據(jù)的來(lái)源包括網(wǎng)上交易、網(wǎng)絡(luò)社交活動(dòng)、自動(dòng)傳感器、移動(dòng)設(shè)備以及科學(xué)儀器等等。除了那些固定的數(shù)據(jù)生產(chǎn)源,各種交易行為還可能加快數(shù)據(jù)的積累速度。比如說(shuō),社交類(lèi)多媒體數(shù)據(jù)的爆炸性增長(zhǎng)就源于新的網(wǎng)上交易和記錄行為。數(shù)據(jù)永遠(yuǎn)都在增長(zhǎng)之中,但是,只有存儲(chǔ)海量數(shù)據(jù)的能力是不夠的,因?yàn)檫@并不能保證我們能夠成功地從中搜尋出商業(yè)價(jià)值。
數(shù)據(jù)是重要的生產(chǎn)要素
信息時(shí)代,數(shù)據(jù)儼然已成為一種重要的生產(chǎn)要素,如同資本、勞動(dòng)力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業(yè)的應(yīng)用。各行各業(yè)的公司都在收集并利用大量的數(shù)據(jù)分析結(jié)果,盡可能的降低成本,提高產(chǎn)品質(zhì)量、提高生產(chǎn)效率以及創(chuàng)造新的產(chǎn)品。例如,通過(guò)分析直接從產(chǎn)品測(cè)試現(xiàn)場(chǎng)收集的數(shù)據(jù),能夠幫助企業(yè)改進(jìn)設(shè)計(jì)。此外,一家公司還可以通過(guò)深入分析客戶(hù)行為,對(duì)比大量的市場(chǎng)數(shù)據(jù),從而超越他的競(jìng)爭(zhēng)對(duì)手。
存儲(chǔ)技術(shù)必須跟上
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長(zhǎng),它已經(jīng)衍生出了自己獨(dú)特的架構(gòu),而且也直接推動(dòng)了存儲(chǔ)、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動(dòng)的,就這個(gè)例子來(lái)說(shuō),我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的發(fā)展。
從另一方面看,這一變化對(duì)存儲(chǔ)廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會(huì)。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長(zhǎng),以及分析數(shù)據(jù)來(lái)源的多樣化,此前存儲(chǔ)系統(tǒng)的設(shè)計(jì)已經(jīng)無(wú)法滿(mǎn)足大數(shù)據(jù)應(yīng)用的需要。存儲(chǔ)廠商已經(jīng)意識(shí)到這一點(diǎn),他們開(kāi)始修改基于塊和文件的存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。在這里,我們會(huì)討論哪些與大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。
容量問(wèn)題
這里所說(shuō)的“大容量”通??蛇_(dá)到PB級(jí)的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲(chǔ)系統(tǒng)也一定要有相應(yīng)等級(jí)的擴(kuò)展能力。與此同時(shí),存儲(chǔ)系統(tǒng)的擴(kuò)展一定要簡(jiǎn)便,可以通過(guò)增加模塊或磁盤(pán)柜來(lái)增加容量,甚至不需要停機(jī)。基于這樣的需求,客戶(hù)現(xiàn)在越來(lái)越青睞Scale-out架構(gòu)的存儲(chǔ)。Scale-out集群結(jié)構(gòu)的特點(diǎn)是每個(gè)節(jié)點(diǎn)除了具有一定的存儲(chǔ)容量之外,內(nèi)部還具備數(shù)據(jù)處理能力以及互聯(lián)設(shè)備,與傳統(tǒng)存儲(chǔ)系統(tǒng)的煙囪式架構(gòu)完全不同,Scale-out架構(gòu)可以實(shí)現(xiàn)無(wú)縫平滑的擴(kuò)展,避免存儲(chǔ)孤島。
“大數(shù)據(jù)”應(yīng)用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個(gè)難題,處理不當(dāng)?shù)脑?huà)會(huì)影響到系統(tǒng)的擴(kuò)展能力和性能,而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是,基于對(duì)象的存儲(chǔ)架構(gòu)就不存在這個(gè)問(wèn)題,它可以在一個(gè)系統(tǒng)中管理十億級(jí)別的文件數(shù)量,而且還不會(huì)像傳統(tǒng)存儲(chǔ)一樣遭遇元數(shù)據(jù)管理的困擾?;趯?duì)象的存儲(chǔ)系統(tǒng)還具有廣域擴(kuò)展能力,可以在多個(gè)不同的地點(diǎn)部署并組成一個(gè)跨區(qū)域的大型存儲(chǔ)基礎(chǔ)架構(gòu)。
延遲問(wèn)題
“大數(shù)據(jù)”應(yīng)用還存在實(shí)時(shí)性的問(wèn)題。特別是涉及到與網(wǎng)上交易或者金融類(lèi)相關(guān)的應(yīng)用。舉個(gè)例子來(lái)說(shuō),網(wǎng)絡(luò)成衣銷(xiāo)售行業(yè)的在線廣告推廣服務(wù)需要實(shí)時(shí)的對(duì)客戶(hù)的瀏覽記錄進(jìn)行分析,并準(zhǔn)確的進(jìn)行廣告投放。這就要求存儲(chǔ)系統(tǒng)在必須能夠支持上述特性同時(shí)保持較高的響應(yīng)速度,因?yàn)轫憫?yīng)延遲的結(jié)果是系統(tǒng)會(huì)推送“過(guò)期”的廣告內(nèi)容給客戶(hù)。這種場(chǎng)景下,Scale-out架構(gòu)的存儲(chǔ)系統(tǒng)就可以發(fā)揮出優(yōu)勢(shì),因?yàn)樗拿恳粋€(gè)節(jié)點(diǎn)都具有處理和互聯(lián)組件,在增加容量的同時(shí)處理能力也可以同步增長(zhǎng)。而基于對(duì)象的存儲(chǔ)系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流,從而進(jìn)一步提高數(shù)據(jù)吞吐量。
有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計(jì)算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對(duì)高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲(chǔ)設(shè)備應(yīng)運(yùn)而生,小到簡(jiǎn)單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)的可擴(kuò)展存儲(chǔ)系統(tǒng)等等都在蓬勃發(fā)展。
并發(fā)訪問(wèn)一旦企業(yè)認(rèn)識(shí)到大數(shù)據(jù)分析應(yīng)用的潛在價(jià)值,他們就會(huì)將更多的數(shù)據(jù)集納入系統(tǒng)進(jìn)行比較,同時(shí)讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價(jià)值,企業(yè)往往會(huì)綜合分析那些來(lái)自不同平臺(tái)下的多種數(shù)據(jù)對(duì)象。包括全局文件系統(tǒng)在內(nèi)的存儲(chǔ)基礎(chǔ)設(shè)施就能夠幫助用戶(hù)解決數(shù)據(jù)訪問(wèn)的問(wèn)題,全局文件系統(tǒng)允許多個(gè)主機(jī)上的多個(gè)用戶(hù)并發(fā)訪問(wèn)文件數(shù)據(jù),而這些數(shù)據(jù)則可能存儲(chǔ)在多個(gè)地點(diǎn)的多種不同類(lèi)型的存儲(chǔ)設(shè)備上。
安全問(wèn)題
某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對(duì)于IT管理者來(lái)說(shuō)這些并沒(méi)有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類(lèi)數(shù)據(jù)相互參考,而在過(guò)去并不會(huì)有這種數(shù)據(jù)混合訪問(wèn)的情況,因此大數(shù)據(jù)應(yīng)用也催生出一些新的、需要考慮的安全性問(wèn)題。
成本問(wèn)題
“大”,也可能意味著代價(jià)不菲。而對(duì)于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來(lái)說(shuō),成本控制是關(guān)鍵的問(wèn)題。想控制成本,就意味著我們要讓每一臺(tái)設(shè)備都實(shí)現(xiàn)更高的“效率”,同時(shí)還要減少那些昂貴的部件。目前,像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲(chǔ)市場(chǎng),而且現(xiàn)在還可以處理更多的數(shù)據(jù)類(lèi)型,這都可以為大數(shù)據(jù)存儲(chǔ)應(yīng)用帶來(lái)更多的價(jià)值,提升存儲(chǔ)效率。在數(shù)據(jù)量不斷增長(zhǎng)的環(huán)境中,通過(guò)減少后端存儲(chǔ)的消耗,哪怕只是降低幾個(gè)百分點(diǎn),都能夠獲得明顯的投資回報(bào)。此外,自動(dòng)精簡(jiǎn)配置、快照和克隆技術(shù)的使用也可以提升存儲(chǔ)的效率。
很多大數(shù)據(jù)存儲(chǔ)系統(tǒng)都包括歸檔組件,尤其對(duì)那些需要分析歷史數(shù)據(jù)或需要長(zhǎng)期保存數(shù)據(jù)的機(jī)構(gòu)來(lái)說(shuō),歸檔設(shè)備必不可少。從單位容量存儲(chǔ)成本的角度看,磁帶仍然是最經(jīng)濟(jì)的存儲(chǔ)介質(zhì),事實(shí)上,在許多企業(yè)中,使用支持TB級(jí)大容量磁帶的歸檔系統(tǒng)仍然是事實(shí)上的標(biāo)準(zhǔn)和慣例。
對(duì)成本控制影響最大的因素是那些商業(yè)化的硬件設(shè)備。因此,很多初次進(jìn)入這一領(lǐng)域的用戶(hù)以及那些應(yīng)用規(guī)模最大的用戶(hù)都會(huì)定制他們自己的“硬件平臺(tái)”而不是用現(xiàn)成的商業(yè)產(chǎn)品,這一舉措可以用來(lái)平衡他們?cè)跇I(yè)務(wù)擴(kuò)展過(guò)程中的成本控制戰(zhàn)略。為了適應(yīng)這一需求,現(xiàn)在越來(lái)越多的存儲(chǔ)產(chǎn)品都提供純軟件的形式,可以直接安裝在用戶(hù)已有的、通用的或者現(xiàn)成的硬件設(shè)備上。此外,很多存儲(chǔ)軟件公司還在銷(xiāo)售以軟件產(chǎn)品為核心的軟硬一體化裝置,或者與硬件廠商結(jié)盟,推出合作型產(chǎn)品。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應(yīng)用都會(huì)涉及到法規(guī)遵從問(wèn)題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財(cái)務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲(chǔ)的用戶(hù)卻希望數(shù)據(jù)能夠保存更長(zhǎng)的時(shí)間,因?yàn)槿魏螖?shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時(shí)間段進(jìn)行的。要實(shí)現(xiàn)長(zhǎng)期的數(shù)據(jù)保存,就要求存儲(chǔ)廠商開(kāi)發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測(cè)的功能以及其他保證長(zhǎng)期高可用的特性。同時(shí)還要實(shí)現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過(guò)仔細(xì)設(shè)計(jì),才能保證存儲(chǔ)系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲(chǔ)環(huán)境中,已經(jīng)沒(méi)有必要再做數(shù)據(jù)遷移了,因?yàn)閿?shù)據(jù)會(huì)同時(shí)保存在多個(gè)部署站點(diǎn)。一個(gè)大型的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施一旦開(kāi)始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類(lèi)型和數(shù)據(jù)場(chǎng)景。
應(yīng)用感知
最早一批使用大數(shù)據(jù)的用戶(hù)已經(jīng)開(kāi)發(fā)出了一些針對(duì)應(yīng)用的定制的基礎(chǔ)設(shè)施,比如針對(duì)政府項(xiàng)目開(kāi)發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專(zhuān)用服務(wù)器等。在主流存儲(chǔ)系統(tǒng)領(lǐng)域,應(yīng)用感知技術(shù)的使用越來(lái)越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲(chǔ)環(huán)境里。
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專(zhuān)注服務(wù)器托管租用,是國(guó)家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營(yíng)商。億恩為近五十萬(wàn)的用戶(hù)提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶(hù)不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話(huà):
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話(huà):
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話(huà):
0371-60135995
服務(wù)熱線:
0371-60135900