大數(shù)據(jù)交付的7個(gè)步驟 |
發(fā)布時(shí)間: 2012/9/4 18:17:01 |
首先,他們需要知道什么是大數(shù)據(jù)。如下是我如何定義大數(shù)據(jù)這一概念: “新興技術(shù)和實(shí)踐方案,使收集、處理、發(fā)現(xiàn)和儲(chǔ)存大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)變得快速而富有成本效益。” 大數(shù)據(jù)涵蓋了眾多社會(huì)生活的范疇——從金融交易到人類基因組,從汽車的遙測(cè)傳感器到互聯(lián)網(wǎng)上社會(huì)媒體日志。利用傳統(tǒng)的數(shù)據(jù)庫(kù)方式來(lái)處理和存儲(chǔ)這些大數(shù)據(jù)是相當(dāng)昂貴的。為了解決這個(gè)問(wèn)題的新技術(shù),利用開(kāi)放源解決方案和商業(yè)硬件高效存儲(chǔ)數(shù)據(jù),并行工作負(fù)載,提供快速處理能力。 隨著越來(lái)越多的IT部門開(kāi)始研究大數(shù)據(jù)的替代品,討論中心棧,處理速度和平臺(tái)。而這些IT部門無(wú)法很好的把握其現(xiàn)有技術(shù)的局限性,許多不能闡明這些替代方案的商業(yè)價(jià)值,更遑論他們將如何進(jìn)行分類和優(yōu)先級(jí)的數(shù)據(jù)排序,進(jìn)入大數(shù)據(jù)治理。 事實(shí)上,我們所看到的新出現(xiàn)的大數(shù)據(jù)需求,以及關(guān)于其處理平臺(tái)和流程的討論只是大數(shù)據(jù)傳輸整體的一部分。在現(xiàn)實(shí)中,實(shí)現(xiàn)的全部潛在大數(shù)據(jù)的交付過(guò)程,需要七個(gè)步驟: 收集:從數(shù)據(jù)源和分布在多個(gè)節(jié)點(diǎn)處收集數(shù)據(jù)——通常是一個(gè)網(wǎng)格——每個(gè)進(jìn)程的一個(gè)子集,并行數(shù)據(jù)。 流程:然后系統(tǒng)使用相同的高功率并行執(zhí)行,對(duì)每個(gè)節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行快速計(jì)算。節(jié)點(diǎn)“壓縮”結(jié)果數(shù)據(jù)到更多的消費(fèi)數(shù)據(jù),由此產(chǎn)生的數(shù)據(jù)集可以被人工(在分析的情況下)或機(jī)器(在解釋大型結(jié)果的情況下)使用。 管理:正在處理大數(shù)據(jù)往往是異構(gòu)的,來(lái)自不同的交易系統(tǒng)。這些數(shù)據(jù)通常需要理解、定義、注釋,并且以安全起見(jiàn),還要進(jìn)行掃描和審核。 測(cè)量:公司往往會(huì)測(cè)量數(shù)據(jù)的速率,可與其他客戶的行為或記錄進(jìn)行整合,并隨時(shí)間的推移來(lái)決定是否對(duì)其進(jìn)行整合或校正。業(yè)務(wù)要求應(yīng)告知測(cè)量和持續(xù)跟蹤的類型。 消耗:所產(chǎn)生的使用數(shù)據(jù)應(yīng)符合原要求的處理流程。例如,如果利用幾百TB的社會(huì)化媒體數(shù)據(jù)互動(dòng),有助于我們了解社會(huì)媒體數(shù)據(jù)如何驅(qū)動(dòng)用戶額外購(gòu)買產(chǎn)品,那么我們應(yīng)該建立社會(huì)媒體的數(shù)據(jù)應(yīng)當(dāng)如何被訪問(wèn)和更新的規(guī)則。這與機(jī)器對(duì)機(jī)器的數(shù)據(jù)訪問(wèn)是同樣重要的。 存儲(chǔ):由于“數(shù)據(jù)即服務(wù)”趨勢(shì)的形成,越來(lái)越多的數(shù)據(jù)開(kāi)始存儲(chǔ)在單一位置,以便于進(jìn)程的訪問(wèn)。數(shù)據(jù)用于短期的存儲(chǔ)批處理或長(zhǎng)期保留,應(yīng)審慎處理存儲(chǔ)解決方案。 數(shù)據(jù)管理:數(shù)據(jù)治理是驅(qū)動(dòng)業(yè)務(wù)的決策和監(jiān)督數(shù)據(jù)。根據(jù)數(shù)據(jù)治理的定義,數(shù)據(jù)治理適用于六個(gè)前階段的大數(shù)據(jù)傳輸。通過(guò)建立流程和指導(dǎo)原則,制裁圍繞數(shù)據(jù)的行為。大數(shù)據(jù)需要根據(jù)其預(yù)期消費(fèi)進(jìn)行管轄。其他的風(fēng)險(xiǎn)是對(duì)于數(shù)據(jù)分配的不滿,更不用說(shuō)過(guò)度投資。 大多數(shù)工作人員負(fù)責(zé)調(diào)查和獲取大數(shù)據(jù)解決方案?jìng)?cè)重于收集和存儲(chǔ)步驟,而犧牲了其他的步驟。他們的問(wèn)題是:“我們?nèi)绾问占羞@些數(shù)據(jù),我們把這些數(shù)據(jù)存儲(chǔ)在何處?” 但許多IT部門仍然逃避了定義離散的大數(shù)據(jù)業(yè)務(wù)需求的進(jìn)程。而業(yè)務(wù)人士經(jīng)常將大數(shù)據(jù)的趨勢(shì)看成只是一個(gè)IT重新整修的借口,沒(méi)有明確的終點(diǎn)的游戲。這種相互嘲諷的環(huán)境就是為什么大數(shù)據(jù)沒(méi)有超越“前期調(diào)查階段”的罪魁禍?zhǔn)住?/p> 正如“ITBusinessEdge”一書的作者洛林勞森在其最近的博客中所說(shuō),“確保您的分享是合理性的唯一途徑是要保證你有一套有效的管理大數(shù)據(jù)的計(jì)劃。” 挖掘數(shù)據(jù)治理進(jìn)程,盡最大的努力確保數(shù)據(jù): 商業(yè)價(jià)值和理想的結(jié)果是明確的 處理關(guān)鍵數(shù)據(jù)的相關(guān)政策已經(jīng)被批準(zhǔn) 專業(yè)知識(shí)應(yīng)用到大數(shù)據(jù)問(wèn)題 定義關(guān)鍵數(shù)據(jù)的規(guī)則是明確的 沖突和問(wèn)題升級(jí)有一個(gè)過(guò)程 數(shù)據(jù)管理——執(zhí)行數(shù)據(jù)治理政策的戰(zhàn)術(shù)是相關(guān)的 在關(guān)鍵問(wèn)題發(fā)展階段有決策權(quán)的 執(zhí)行數(shù)據(jù)隱私政策 總之,數(shù)據(jù)治理意味著大數(shù)據(jù)的應(yīng)用程序是有用的和相關(guān)的。這一保險(xiǎn)政策是一個(gè)正確的問(wèn)題。確保我們不會(huì)浪費(fèi)新的大數(shù)據(jù),使得處理、存儲(chǔ)和交付速度更具成本效益,比以往的技術(shù)更靈活。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |