數(shù)據(jù)挖掘在質(zhì)量管理系統(tǒng)中的應用實例 |
發(fā)布時間: 2012/9/6 17:34:24 |
信息化管理不僅是企業(yè),也是任意一個政府部門適應未來發(fā)展的必由之路,質(zhì)量監(jiān)管部門在企業(yè)數(shù)目不斷增加,產(chǎn)品數(shù)據(jù)飛速增長的現(xiàn)實面前,傳統(tǒng)的數(shù)據(jù)管理手段顯得捉襟見肘。因此,將信息技術與企業(yè)質(zhì)量管理(尤其是全面質(zhì)量管理階段)有機的結合起來,對于適應我國經(jīng)濟社會發(fā)展具有十分重要的意義。數(shù)據(jù)挖掘技術為作為一種先進的、極具價值的數(shù)據(jù)分析工具,為質(zhì)監(jiān)部門實現(xiàn)全面質(zhì)量監(jiān)控管理提供了全新的科學手段。
1 數(shù)據(jù)挖掘簡介 1.1 數(shù)據(jù)挖掘的基本步驟 數(shù)據(jù)挖掘指的是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。數(shù)據(jù)挖掘一般包括6個步驟,依次是定義問題、準備數(shù)據(jù)、瀏覽數(shù)據(jù)、生成模型、瀏覽和驗證模型、部署更新模型,如圖1所示。 圖1 數(shù)據(jù)挖掘步驟 。1)定義問題 清晰地定義出業(yè)務問題,確定數(shù)據(jù)挖掘的目的。 。2)準備數(shù)據(jù) 數(shù)據(jù)準備包括:選擇數(shù)據(jù)——在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標中提取數(shù)據(jù)挖掘的目標數(shù)據(jù)集;數(shù)據(jù)預處理——進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。 。3)瀏覽數(shù)據(jù) 數(shù)據(jù)挖掘過程的第3步就是瀏覽已準備的數(shù)據(jù),以便在創(chuàng)建模型時作出正確的決策。瀏覽技術包括計算最大值和最小值,計算平均偏差和標準偏差,以及查看數(shù)據(jù)的分布。瀏覽完數(shù)據(jù)之后,便可確定數(shù)據(jù)集是否包含缺陷數(shù)據(jù),然后制訂糾正這些問題的策略。 。4)生成模型 根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應的算法,在凈化和轉換過的數(shù)據(jù)集上進行數(shù)據(jù)挖掘,生成模型。 (5)瀏覽和驗證模型 對數(shù)據(jù)挖掘的獲得的模型進行解釋和評價,轉換成為能夠最終被用戶理解的知識。 (6)部署和更新模型 將性能最佳的模型部署到生產(chǎn)環(huán)境,更新模型是部署策略的一部分。 1.2 SQL Server數(shù)據(jù)挖掘和DMX Microsoft SQL Server Analysis Services(SSAS)提供了用于數(shù)據(jù)挖掘的工具,可以借助這些工具標識數(shù)據(jù)中的規(guī)則和模式,從而確定出現(xiàn)問題的原因并預測將來將要出現(xiàn)的問題。Analysis Services可以使用來自關系數(shù)據(jù)庫和OLAP數(shù)據(jù)庫的數(shù)據(jù)集以及可用來調(diào)查數(shù)據(jù)的各種算法。SQL Server提供了各種可用于數(shù)據(jù)挖掘的環(huán)境和工具。 。1)數(shù)據(jù)挖掘向?qū)?/p> 在Business Intelligence Development Studio中,可以從數(shù)據(jù)挖掘向?qū)ч_始創(chuàng)建數(shù)據(jù)挖掘解決方案。該向?qū)в糜谥笇瓿蓜?chuàng)建數(shù)據(jù)挖掘結構和初始相關挖掘模型的過程,包括選擇算法類型和數(shù)據(jù)源以及定義事例表等任務。 在使用數(shù)據(jù)挖掘向?qū)俳送诰蚪Y構和初始挖掘模型后,打開數(shù)據(jù)挖掘設計器。在該設計器中,可以管理挖掘結構,創(chuàng)建新的挖掘模型,部署、瀏覽、比較和創(chuàng)建基于現(xiàn)有挖掘模塊的預測。 。2)數(shù)據(jù)挖掘擴展插件(DMX) 在SSAS中可以使用數(shù)據(jù)挖掘擴展插件(DMX)語言創(chuàng)建和處理數(shù)據(jù)挖掘模型。通過使用DMX創(chuàng)建新數(shù)據(jù)挖掘模型的結構,使用DMX語句創(chuàng)建、處理、刪除、復制、瀏覽和預測數(shù)據(jù)挖掘模型,為這些模型定型并對其進行瀏覽、管理和預測。DMX由數(shù)據(jù)定義語言(DDL)語句、數(shù)據(jù)操作語言(DML)語句以及函數(shù)和運算符構成。 (3)SQ L Server Management Studio 在創(chuàng)建了挖掘模型并將其部署到服務器上后,即可使用SQL Server Management Studio來執(zhí)行管理和瀏覽任務,如查看和處理模型,以及創(chuàng)建針對這些模型的預測等。Management Studio也包含一個查詢編輯器,可使用該編輯器來設計和執(zhí)行數(shù)據(jù)挖掘擴展插件(DMX)查詢。 。4)Integration Services數(shù)據(jù)挖掘任務和轉換 SQL Server Integration Services(SSIS)提供了一些工具來自動完成常見的數(shù)據(jù)挖掘任務,如處理挖掘模型和創(chuàng)建預測查詢等。例如,如果有一個根據(jù)潛在客戶的數(shù)據(jù)集生成的挖掘模型,那么,就可以創(chuàng)建一個Integration Services包,該包可在每次用新客戶更新數(shù)據(jù)集時,自動更新該模型。并且可以基于該包來創(chuàng)建預測,將潛在客戶分入兩個表。一個表里中包含的是可能的客戶,另一個表中包含的是不可能購買任何產(chǎn)品的客戶。 。5)SSAS的算法 Microsoft決策樹算法是由SSAS提供的分類和回歸算法,用于對離散和連續(xù)屬性進行預測性建模。Microsoft Naive Bayes算法是SSAS提供的一種分類算法,用于預測性建模。該算法在假定列互不相關的前提下計算輸入列和可預測列之間的條件概率。Microsoft時序算法是SSAS提供的回歸算法,用于創(chuàng)建數(shù)據(jù)挖掘模型以預測連續(xù)列,如預測方案中的產(chǎn)品銷售額。時序模型的預測僅根據(jù)算法在創(chuàng)建模型時從原始數(shù)據(jù)集派生的趨勢,而決策樹類算法依靠給定輸入列來預測可預測列的模型。Microsoft神經(jīng)網(wǎng)絡算法通過構造多層感知器網(wǎng)絡創(chuàng)建分類和回歸挖掘模型,與Microsoft決策樹算法相類似,當給定可預測屬性的每個狀態(tài)時,神經(jīng)網(wǎng)絡算法可以計算輸入屬性的每個可能狀態(tài)的概率。并且可以基于這些概率預測被預測屬性的結果。 本文出自:億恩科技【mszdt.com】 |