舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和DataMining互補(bǔ),但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。
NO.4 完整的Data Mining 包含哪些步驟?
以下提供一個(gè)Data Mining的進(jìn)行步驟以為參考:
1. 理解業(yè)務(wù)與理解數(shù)據(jù);
2. 獲取相關(guān)技術(shù)與知識(shí);
3. 整合與查詢數(shù)據(jù);
4. 去除錯(cuò)誤或不一致及不完整的數(shù)據(jù);
5. 由數(shù)據(jù)選取樣本先行試驗(yàn);
6. 建立數(shù)據(jù)模型
7. 實(shí)際Data Mining的分析工作;
8. 測(cè)試與檢驗(yàn);
9. 找出假設(shè)并提出解釋;
10. 持續(xù)應(yīng)用于企業(yè)流程中。
由上述步驟可看出,Data Mining牽涉了大量的準(zhǔn)備工作與規(guī)劃過(guò)程,事實(shí)上許多專家皆認(rèn)為整套Data Mining的進(jìn)行有80﹪的時(shí)間精力是花費(fèi)在數(shù)據(jù)前置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知Data Mining只是信息挖掘過(guò)程中的一個(gè)步驟而已,在進(jìn)行此步驟前還有許多的工作要先完成。
NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)?
Data Mining是近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用技術(shù)中相當(dāng)熱門的議題,看似神奇、聽(tīng)來(lái)時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測(cè)模型、數(shù)據(jù)分割,連結(jié)分析(Link Analysis)、偏差偵測(cè)(Deviation Detection)等,美國(guó)早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。
隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問(wèn)世,例如關(guān)系型數(shù)據(jù)庫(kù)、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。
一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。
傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其 Data Mining 對(duì)象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來(lái)精簡(jiǎn)變量的因素分析(Factor Analysis)、用來(lái)分類的判別分析(Discriminant Analysis),以及用來(lái)區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過(guò)程中特別常用。
在改良技術(shù)方面,應(yīng)用較普遍的有決策樹(shù)理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹(shù)是一種用樹(shù)枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測(cè)模型,根據(jù)對(duì)目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對(duì)客戶數(shù)據(jù)的分析上,例如針對(duì)有回函與未回含的郵寄對(duì)象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。
類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識(shí)不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無(wú)須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動(dòng)偵測(cè)出;缺點(diǎn)則在于其分析過(guò)程為一黑盒子,故常無(wú)法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。
規(guī)則歸納法是知識(shí)發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問(wèn)題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無(wú)意義的邏輯規(guī)則。
NO.6 Data Mining包含哪些主要功能?
2/4 首頁(yè) 上一頁(yè) 1 2 3 4 下一頁(yè) 尾頁(yè)
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):