云計(jì)算與大數(shù)據(jù)環(huán)境下的數(shù)據(jù)集成 |
發(fā)布時(shí)間: 2012/9/7 15:42:02 |
隨著企業(yè)業(yè)務(wù)的增長,伴隨企業(yè)各類應(yīng)用系統(tǒng)逐步啟用,結(jié)果導(dǎo)致數(shù)據(jù)量幾何級(jí)數(shù)的增長,傳統(tǒng)的整合數(shù)據(jù)的方式正在受到挑戰(zhàn),于此同時(shí),云計(jì)算及網(wǎng)上應(yīng)用在企業(yè)內(nèi)部產(chǎn)生各類結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)所蘊(yùn)含的信息(尤其是非結(jié)構(gòu)化數(shù)據(jù))是傳統(tǒng)分析工具無法捕捉的。本文主要闡述在企業(yè)信息化過程中,數(shù)據(jù)整合的能力建設(shè)所需要考慮的一些關(guān)鍵問題。
從根本來說,企業(yè)信息化的目的是為了降低溝通成本、提高工作效率、增強(qiáng)科學(xué)決策能力,從手段上是將分散、無序、無時(shí)效的數(shù)據(jù)變成有序、可分享、有時(shí)效、可追溯的數(shù)據(jù),前者數(shù)據(jù)過渡到后者數(shù)據(jù),就是無信息(或不可信信息)變成可信信息的過程。數(shù)據(jù)蘊(yùn)含的信息有兩類:1、交易信息,即某一條/或幾條數(shù)據(jù)本身所包含的信息;2、統(tǒng)計(jì)信息,即數(shù)據(jù)集合所蘊(yùn)含的規(guī)律性信息。下圖表現(xiàn)了交易數(shù)據(jù)與統(tǒng)計(jì)數(shù)據(jù)的關(guān)系和傳統(tǒng)架構(gòu)方法,即ETL模型。 傳統(tǒng)整合基本上是基于ETL模式,即從企業(yè)內(nèi)部的信息系統(tǒng)中抽。‥xtract),然后根據(jù)預(yù)先定義的方式轉(zhuǎn)換(Transform),最后載入到企業(yè)的數(shù)據(jù)倉庫(Load),大部分企業(yè)的ETL程序定義在每天晚上運(yùn)行,這類的方法有以下問題: 1、數(shù)據(jù)倉庫的數(shù)據(jù)不是實(shí)時(shí)的信息 2、如果內(nèi)部信息系統(tǒng)數(shù)據(jù)量很大,ETL處理時(shí)間不可能按時(shí)完成。 3、數(shù)據(jù)倉庫的信息無法快速反饋數(shù)據(jù)到基層處理商務(wù)的人員,圖示1中紅色打叉的部分。 4、ERP本身在多年數(shù)據(jù)積累后,事務(wù)處理與訂單查詢都會(huì)變慢。 5、無法處理大數(shù)據(jù),ETL的整個(gè)數(shù)據(jù)處理過程都是建立在已知/預(yù)定義的模型之上的,也就是ETL無法發(fā)掘到數(shù)據(jù)集蘊(yùn)含的未知規(guī)律。 a)結(jié)構(gòu)化大數(shù)據(jù),除上述第2點(diǎn)外,針對(duì)大數(shù)據(jù)的深度挖據(jù)分析能力(非簡(jiǎn)單根據(jù)預(yù)先設(shè)計(jì)的模型做數(shù)據(jù)轉(zhuǎn)換),傳統(tǒng)的系統(tǒng)架構(gòu)中是無法完成的。 b)非結(jié)構(gòu)化、半結(jié)構(gòu)化大數(shù)據(jù)。非架構(gòu)化數(shù)據(jù)從本質(zhì)上來講,是企業(yè)無法預(yù)先定義規(guī)則的數(shù)據(jù)類型,據(jù)IDC的一項(xiàng)調(diào)查報(bào)告中指出:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%.傳統(tǒng)的方式是無法計(jì)算統(tǒng)計(jì)非結(jié)構(gòu)化大數(shù)據(jù)包含的新類型統(tǒng)計(jì)信息。 根據(jù)上述問題,企業(yè)信息系統(tǒng)的數(shù)據(jù)整合的目標(biāo)需要滿足以下條件: 1、提高數(shù)據(jù)的質(zhì)量 低質(zhì)量的數(shù)據(jù)帶來的問題: 1.1統(tǒng)計(jì)數(shù)據(jù)會(huì)有誤導(dǎo),誤導(dǎo)的數(shù)據(jù)直接結(jié)果很可能是企業(yè)戰(zhàn)略決策錯(cuò)誤。 1.2基層人員工作效率低下。由于基層人員不信任數(shù)據(jù),就會(huì)產(chǎn)生額外的工作去核對(duì)并驗(yàn)證。由于數(shù)據(jù)不準(zhǔn)確也會(huì)產(chǎn)生更多的操作性錯(cuò)誤,如:發(fā)貨地址錯(cuò)誤,貨款核對(duì)產(chǎn)生歧義等。這些都會(huì)帶來大量的額外工作,根據(jù)2/8原理,80%的額外工作都緣于20%的錯(cuò)誤。 1.3無法根據(jù)信息系統(tǒng)記錄做更多的分析統(tǒng)計(jì),如6 Sigma類似的項(xiàng)目將無數(shù)據(jù)基礎(chǔ),項(xiàng)目無法推進(jìn)。 2、數(shù)據(jù)安全:由于各類中間件的應(yīng)用、云計(jì)算集成環(huán)境的廣泛普及,數(shù)據(jù)源需要提供更廣泛的數(shù)據(jù)輸出的能力,與此同時(shí),數(shù)據(jù)保護(hù)能力需要更加完善,傳統(tǒng)在應(yīng)用軟件層面的保護(hù)方式是無法滿足此類需求的。保護(hù)數(shù)據(jù)需要考慮:傳輸加密和身份認(rèn)證。 3、與“云計(jì)算”的集成能力:在云計(jì)算環(huán)境里,無論是基礎(chǔ)數(shù)據(jù)還是交易數(shù)據(jù),將不僅限于某一種應(yīng)用系統(tǒng)中使用,甚至數(shù)據(jù)很可能需要跨越公司的防火墻,與外部的云計(jì)算環(huán)境集成。 4、大數(shù)據(jù)能力:舉個(gè)典型的例子,企業(yè)使用web日志、社交媒體(social media,如微博)數(shù)據(jù)分析大量客戶的偏好,同時(shí)使用企業(yè)與客戶已經(jīng)成交的交易記錄,建立更好的預(yù)測(cè)模型,更直接有效的市場(chǎng)推廣或更好的客戶體驗(yàn)。而上述的web日志和社交媒體的數(shù)據(jù)都是非結(jié)構(gòu)化的大數(shù)據(jù)。 5、高性能/滿足實(shí)時(shí)的要求:舉個(gè)典型的貿(mào)易公司為例,該公司需要根據(jù)客戶以往的信用記錄決定是否訂貨或發(fā)貨,如果沒有實(shí)時(shí)統(tǒng)計(jì)能力,此類的商業(yè)模型在執(zhí)行起來會(huì)困難重重。越來越多的企業(yè)希望將部分的決策過程下放到執(zhí)行層面的基層,基層的決策需要實(shí)時(shí)的統(tǒng)計(jì)結(jié)果、可追溯的決策結(jié)果。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |