云計算與大數(shù)據(jù)環(huán)境下的數(shù)據(jù)集成 |
發(fā)布時間: 2012/9/5 18:28:59 |
云計算與大數(shù)據(jù)環(huán)境下的數(shù)據(jù)集成
隨著企業(yè)業(yè)務(wù)的增長,伴隨企業(yè)各類應(yīng)用系統(tǒng)逐步啟用,結(jié)果導(dǎo)致數(shù)據(jù)量幾何級數(shù)的增長,傳統(tǒng)的整合數(shù)據(jù)的方式正在受到挑戰(zhàn),于此同時,云計算及網(wǎng)上應(yīng)用在企業(yè)內(nèi)部產(chǎn)生各類結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)所蘊含的信息(尤其是非結(jié)構(gòu)化數(shù)據(jù))是傳統(tǒng)分析工具無法捕捉的。本文主要闡述在企業(yè)信息化過程中,數(shù)據(jù)整合的能力建設(shè)所需要考慮的一些關(guān)鍵問題。 從根本來說,企業(yè)信息化的目的是為了降低溝通成本、提高工作效率、增強科學(xué)決策能力,從手段上是將分散、無序、無時效的數(shù)據(jù)變成有序、可分享、有時效、可追溯的數(shù)據(jù),前者數(shù)據(jù)過渡到后者數(shù)據(jù),就是無信息(或不可信信息)變成可信信息的過程。數(shù)據(jù)蘊含的信息有兩類:1、交易信息,即某一條/或幾條數(shù)據(jù)本身所包含的信息;2、統(tǒng)計信息,即數(shù)據(jù)集合所蘊含的規(guī)律性信息。下圖表現(xiàn)了交易數(shù)據(jù)與統(tǒng)計數(shù)據(jù)的關(guān)系和傳統(tǒng)架構(gòu)方法,即ETL模型。 傳統(tǒng)整合基本上是基于ETL模式,即從企業(yè)內(nèi)部的信息系統(tǒng)中抽取(Extract),然后根據(jù)預(yù)先定義的方式轉(zhuǎn)換(Transform),最后載入到企業(yè)的數(shù)據(jù)倉庫(Load),大部分企業(yè)的ETL程序定義在每天晚上運行,這類的方法有以下問題: 1、數(shù)據(jù)倉庫的數(shù)據(jù)不是實時的信息 2、如果內(nèi)部信息系統(tǒng)數(shù)據(jù)量很大,ETL處理時間不可能按時完成。 3、數(shù)據(jù)倉庫的信息無法快速反饋數(shù)據(jù)到基層處理商務(wù)的人員,圖示1中紅色打叉的部分。 4、ERP本身在多年數(shù)據(jù)積累后,事務(wù)處理與訂單查詢都會變慢。 5、無法處理大數(shù)據(jù),ETL的整個數(shù)據(jù)處理過程都是建立在已知/預(yù)定義的模型之上的,也就是ETL無法發(fā)掘到數(shù)據(jù)集蘊含的未知規(guī)律。 a)結(jié)構(gòu)化大數(shù)據(jù),除上述第2點外,針對大數(shù)據(jù)的深度挖據(jù)分析能力(非簡單根據(jù)預(yù)先設(shè)計的模型做數(shù)據(jù)轉(zhuǎn)換),傳統(tǒng)的系統(tǒng)架構(gòu)中是無法完成的。 b)非結(jié)構(gòu)化、半結(jié)構(gòu)化大數(shù)據(jù)。非架構(gòu)化數(shù)據(jù)從本質(zhì)上來講,是企業(yè)無法預(yù)先定義規(guī)則的數(shù)據(jù)類型,據(jù)IDC的一項調(diào)查報告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%.傳統(tǒng)的方式是無法計算統(tǒng)計非結(jié)構(gòu)化大數(shù)據(jù)包含的新類型統(tǒng)計信息。 根據(jù)上述問題,企業(yè)信息系統(tǒng)的數(shù)據(jù)整合的目標需要滿足以下條件: 1、提高數(shù)據(jù)的質(zhì)量 低質(zhì)量的數(shù)據(jù)帶來的問題: 1.1統(tǒng)計數(shù)據(jù)會有誤導(dǎo),誤導(dǎo)的數(shù)據(jù)直接結(jié)果很可能是企業(yè)戰(zhàn)略決策錯誤。 1.2基層人員工作效率低下。由于基層人員不信任數(shù)據(jù),就會產(chǎn)生額外的工作去核對并驗證。由于數(shù)據(jù)不準確也會產(chǎn)生更多的操作性錯誤,如:發(fā)貨地址錯誤,貨款核對產(chǎn)生歧義等。這些都會帶來大量的額外工作,根據(jù)2/8原理,80%的額外工作都緣于20%的錯誤。 1.3無法根據(jù)信息系統(tǒng)記錄做更多的分析統(tǒng)計,如6 Sigma類似的項目將無數(shù)據(jù)基礎(chǔ),項目無法推進。 2、數(shù)據(jù)安全:由于各類中間件的應(yīng)用、云計算集成環(huán)境的廣泛普及,數(shù)據(jù)源需要提供更廣泛的數(shù)據(jù)輸出的能力,與此同時,數(shù)據(jù)保護能力需要更加完善,傳統(tǒng)在應(yīng)用軟件層面的保護方式是無法滿足此類需求的。保護數(shù)據(jù)需要考慮:傳輸加密和身份認證。 3、與“云計算”的集成能力:在云計算環(huán)境里,無論是基礎(chǔ)數(shù)據(jù)還是交易數(shù)據(jù),將不僅限于某一種應(yīng)用系統(tǒng)中使用,甚至數(shù)據(jù)很可能需要跨越公司的防火墻,與外部的云計算環(huán)境集成。 4、大數(shù)據(jù)能力:舉個典型的例子,企業(yè)使用web日志、社交媒體(social media,如微博)數(shù)據(jù)分析大量客戶的偏好,同時使用企業(yè)與客戶已經(jīng)成交的交易記錄,建立更好的預(yù)測模型,更直接有效的市場推廣或更好的客戶體驗。而上述的web日志和社交媒體的數(shù)據(jù)都是非結(jié)構(gòu)化的大數(shù)據(jù)。 5、高性能/滿足實時的要求:舉個典型的貿(mào)易公司為例,該公司需要根據(jù)客戶以往的信用記錄決定是否訂貨或發(fā)貨,如果沒有實時統(tǒng)計能力,此類的商業(yè)模型在執(zhí)行起來會困難重重。越來越多的企業(yè)希望將部分的決策過程下放到執(zhí)行層面的基層,基層的決策需要實時的統(tǒng)計結(jié)果、可追溯的決策結(jié)果。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |