无码视频在线观看,99人妻,国产午夜视频,久久久久国产一级毛片高清版新婚

  • 億恩科技有限公司旗下門戶資訊平臺(tái)!
    服務(wù)器租用 4元建網(wǎng)站

    數(shù)據(jù)遷移其實(shí)是很難的

    在過去的十年中,我已經(jīng)經(jīng)歷過了無數(shù)次的數(shù)據(jù)修改任務(wù)(一個(gè)真正的技術(shù)術(shù)語)。無論是將一個(gè)老的數(shù)據(jù)庫遷移到一處現(xiàn)代化的數(shù)據(jù)庫;還是通過新的加工工具拖動(dòng)龐大的數(shù)據(jù)集;又或是無數(shù)其他的將數(shù)據(jù)由一種形式轉(zhuǎn)化成另一種新的形式的任務(wù)。
          在過去的十年中,我已經(jīng)經(jīng)歷過了無數(shù)次的數(shù)據(jù)修改任務(wù)(一個(gè)真正的技術(shù)術(shù)語)。無論是將一個(gè)老的數(shù)據(jù)庫遷移到一處現(xiàn)代化的數(shù)據(jù)庫;還是通過新的加工工具拖動(dòng)龐大的數(shù)據(jù)集;又或是無數(shù)其他的將數(shù)據(jù)由一種形式轉(zhuǎn)化成另一種新的形式的任務(wù)。類似這樣的工作處理頻率很高,幾乎是每天都有這樣的工作內(nèi)容,而這對(duì)于絕大多數(shù)人而言都不能不說是相當(dāng)神奇的,甚至包括相當(dāng)一部分的IT人員。

    讓我來花一點(diǎn)點(diǎn)的時(shí)間來為大家解釋一下這一工作原理吧。

    讓我們選擇一個(gè)最恐怖也最為常見的情況:可怕的Excel電子表格制作。曾經(jīng)有一段時(shí)間一家公司決定他們要收集有關(guān)的業(yè)務(wù)流程數(shù)據(jù)資料,包括庫存、銷售、客戶資料等一系列的數(shù)據(jù)。由于缺乏適當(dāng)?shù)墓ぞ?,相關(guān)負(fù)責(zé)的工作人員只能做了一個(gè)Excel電子表格,結(jié)果差點(diǎn)瘋了:隨著時(shí)間的推移,成千上萬的記錄需要進(jìn)行收集,而Excel電子表格的功能越來越無法滿足其需求。最終,該企業(yè)決定把這些數(shù)據(jù)信息放入真實(shí)的數(shù)據(jù)庫。他們聘請(qǐng)了一家咨詢集團(tuán),將這些任務(wù)交給專業(yè)的人員來處理。

    首先要做的第一件事是檢查數(shù)據(jù)本身。在一個(gè)完美的世界中,電子表格就像一個(gè)數(shù)據(jù)庫,每一格都屬于其所在列的分類中——如姓氏、名字、街道、城市,等等。然而,這一方法并不總是奏效的。有時(shí)候,我們可能在單獨(dú)的一行或一列涵蓋所有的聯(lián)系信息,如一列里面需要包含全部的聯(lián)系信息,如姓名、公司、地址、電話號(hào)碼,等等。而在下一列則可能是關(guān)于最后訂單或2012年的銷售數(shù)據(jù)或其他數(shù)據(jù)。這就提出了一個(gè)更具挑戰(zhàn)性的問題了。

    讓我們先來看看這第一種情況,因?yàn)樗亲詈唵蔚摹T谶@第一種情況下,數(shù)據(jù)是相對(duì)干凈并經(jīng)過了良好的組織,它可以導(dǎo)出為CSV文件并通過自定義解析器運(yùn)行,將其轉(zhuǎn)換成一個(gè)數(shù)據(jù)庫。一個(gè)好的CSV解析器將把所有這些記錄導(dǎo)入到一個(gè)數(shù)組,可以通過記錄插入到新數(shù)據(jù)庫分開記錄。在這一過程中,可以對(duì)數(shù)據(jù)進(jìn)行檢查,同時(shí)數(shù)據(jù)可以被修改,以便能夠更好地適應(yīng)新的數(shù)據(jù)庫格式。

    例如,我們可能會(huì)運(yùn)行一個(gè)電話號(hào)碼字段的正則表達(dá)式,以便將各種不同的電話號(hào)碼格式轉(zhuǎn)換成一種標(biāo)準(zhǔn)的格式。這需要把所有的特殊字符和格式化的字符在被插入到新的數(shù)據(jù)庫之前串起來。該操作將把諸如(212)555-1212、212-555-1212、2125551212、2125551212、212.555.1212這樣的每條記錄統(tǒng)一變成(212)555-1212,這樣的標(biāo)準(zhǔn)化格式,這將有利于方便數(shù)據(jù)的讀取和搜索。

    這樣,我們現(xiàn)在可以以我們喜歡的方式重新格式化的電話號(hào)碼。這就幫助我們擺脫了那種可能遇到的多一位數(shù),或者少一位數(shù)的不可能是電話號(hào)碼的困境。

    鑒于我們可以采用更加自由的格式,處理起來也就變得更為方便了。地址的處理是特別挑剔的,因?yàn)樗麄兛梢杂酶鞣N不同的方式格式化。我們還需要處理街頭各種變幻莫測(cè)的街道和城市名稱。我們需要確保我們能夠正確的處理“Washington,DC,”、“Washington,DC,”和“WashingtonDC”,以及各種古怪的拼寫方式,如“Winston-Salem,NC,”、“KingofPrussia,PA,”、“Scranton,Penn.,”、“N.ProvidenceRI,”、“Houston,tx,”、以及“O'Fallon,IL.”。

    如果我們不加以特殊的考慮,上述這些各種各樣的奇怪的拼寫字符都可以訪問分析解析器,因?yàn)槲覀儾荒苋コ厥庾址?。此外,我們不能指望國家或州名的縮寫都正好符合某一字段長度。因此,我們需要構(gòu)造條件表達(dá)式,以盡最大努力的明確表達(dá)城市和國家實(shí)際的名稱,甚至包括對(duì)美國每一座城市和州數(shù)據(jù)庫的核對(duì)?;谶@些結(jié)果,如果沒有明確的標(biāo)志,我們可能仍然需要手動(dòng)檢查有問題的記錄來擺脫困境。

    上面所介紹的內(nèi)容,其實(shí)我們剛開始觸及表面。我們還需要投入大量的工作來搞清楚每個(gè)記錄中的城市、州和電話號(hào)碼信息。我們需要根據(jù)不同的內(nèi)容處理和重復(fù)的電子表格中的所有其他領(lǐng)域。

    這種混亂是由允許數(shù)據(jù)項(xiàng)不受約束的自由格式所直接導(dǎo)致的。其對(duì)于每家公司所造成的困擾無處不在。當(dāng)然,其不必是Excel格式的電子表格。其可以是企業(yè)自主開發(fā)的,能夠被訪問的數(shù)據(jù)庫,或是任何其他應(yīng)用程序。除非有相關(guān)的排查以保證輸入數(shù)據(jù)的有效性和格式化,這些數(shù)據(jù)將可能一直是混亂狀態(tài)。當(dāng)然,問題的關(guān)鍵是建立一個(gè)合適的數(shù)據(jù)庫前端來處理數(shù)據(jù)的輸入:我們可以清理數(shù)據(jù),并交給員工們導(dǎo)入數(shù)據(jù)的正確方式,這無疑將在一個(gè)持續(xù)的基礎(chǔ)上大大增強(qiáng)數(shù)據(jù)的準(zhǔn)確性和可用性。這是使用數(shù)據(jù)庫最為重要的好處之一。

    當(dāng)然,我們不能低估在處理這些類型的數(shù)據(jù)集方面所做出的努力。目前已開發(fā)出來各類工具來簡化這一過程,但這些工具并非適合所有情況。雖然他們可能僅僅對(duì)于一部分輸入的數(shù)據(jù)是奏效的,但錯(cuò)過的部分,如果處理不當(dāng)會(huì)造成更加麻煩的問題。

    這種性質(zhì)的工作是乏味的,需要格外注重細(xì)節(jié)。它需要大量的人工數(shù)據(jù)檢驗(yàn)、測(cè)試、調(diào)試和對(duì)部分項(xiàng)目的開發(fā)工作的前瞻性的思維。當(dāng)上述所強(qiáng)調(diào)的一切都滿足之后,其結(jié)果幾乎可以保證是值得我們努力的。

    使用干凈的數(shù)據(jù),可以使一切變得更簡單。但是不要低估在清理數(shù)據(jù)這一過程中可能具到的挑戰(zhàn)。

    河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
    服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:0371-60135900
    虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:0371-55621053
    網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:0371-60135995
    服務(wù)熱線:0371-60135900

    2
    1
    分享到:責(zé)任編輯:阿云

    相關(guān)推介

    共有:3條評(píng)論網(wǎng)友評(píng)論:

    驗(yàn)證碼 看不清換一張 換一張

    親,還沒評(píng)論呢!速度搶沙發(fā)吧!