第五,模式律(大衛(wèi)律):數(shù)據(jù)中總含有模式。
這條規(guī)律最早由David Watkins提出。 我們可能預(yù)料到一些數(shù)據(jù)挖掘項(xiàng)目會失敗,因?yàn)榻鉀Q業(yè)務(wù)問題的模式并不存在于數(shù)據(jù)中,但是這與數(shù)據(jù)挖掘者的實(shí)踐經(jīng)驗(yàn)并不相關(guān)。
前文的闡述已經(jīng)提到,這是因?yàn)椋涸谝粋€與業(yè)務(wù)相關(guān)的數(shù)據(jù)集中總會發(fā)現(xiàn)一些有趣的東西,以至于即使一些期望的模式不能被發(fā)現(xiàn),但其他的一些有用的東西可能會被 發(fā)現(xiàn)(這與數(shù)據(jù)挖掘者的實(shí)踐經(jīng)驗(yàn)是相關(guān)的);除非業(yè)務(wù)專家期望的模式存在,否則數(shù)據(jù)挖掘項(xiàng)目不會進(jìn)行,這不應(yīng)感到奇怪,因?yàn)闃I(yè)務(wù)專家通常是對的。
然而,Watkins提出一個更簡單更直接的觀點(diǎn):“數(shù)據(jù)中總含有模式。”這與數(shù)據(jù)挖掘者的經(jīng)驗(yàn)比前面的闡述更一致。這個觀點(diǎn)后來經(jīng)過Watkins修正,基于客戶關(guān)系的數(shù)據(jù)挖掘項(xiàng)目,總是存在著這樣的模式即客戶未來的行為總是和先前的行為相關(guān),顯然這些模式是有利可圖的(Watkins的客戶關(guān)系管理定律)。但是,數(shù)據(jù)挖掘者的經(jīng)驗(yàn)不僅僅局限于客戶關(guān)系管理問題,任何數(shù)據(jù)挖掘問題都會存在模式(Watkins的通用律)。
Watkins的通用律解釋如下:
數(shù)據(jù)挖掘項(xiàng)目的業(yè)務(wù)目標(biāo)定義了興趣范圍(定義域),數(shù)據(jù)挖掘目標(biāo)反映了這一點(diǎn);
與業(yè)務(wù)目標(biāo)相關(guān)的數(shù)據(jù)及其相應(yīng)的數(shù)據(jù)挖掘目標(biāo)是在這個定義域上的數(shù)據(jù)挖掘過程產(chǎn)生的;
這些過程受規(guī)則限制,而這些過程產(chǎn)生的數(shù)據(jù)反映了這些規(guī)則;
在這些過程中,數(shù)據(jù)挖掘的目的是通過模式發(fā)現(xiàn)技術(shù)(數(shù)據(jù)挖掘算法)和可以解釋這個算法結(jié)果的業(yè)務(wù)知識相結(jié)合的方法來揭示這個定義域上的規(guī)則;
數(shù)據(jù)挖掘需要在這個域上生成相關(guān)數(shù)據(jù),這些數(shù)據(jù)含有的模式不可避免地受到這些規(guī)則的限制。
總結(jié)這一觀點(diǎn):數(shù)據(jù)中總存在模式,因?yàn)樵谶@過程中不可避免產(chǎn)生數(shù)據(jù)這樣的副產(chǎn)品。為了發(fā)掘模式,過程從(你已經(jīng)知道它)—–業(yè)務(wù)知識開始。
利用業(yè)務(wù)知識發(fā)現(xiàn)模式也是一個反復(fù)的過程;這些模式也對業(yè)務(wù)知識有貢獻(xiàn),同時業(yè)務(wù)知識是解釋模式的主要因素。在這種反復(fù)的過程中,數(shù)據(jù)挖掘算法簡單地連接了業(yè)務(wù)知識和隱藏的模式。
如果這個解釋是正確的,那么大衛(wèi)律是完全通用的。除非沒有相關(guān)的數(shù)據(jù)的保證,否則在每個定義域的每一個數(shù)據(jù)挖掘問題總是存在模式的。
第六,洞察律:數(shù)據(jù)挖掘增大對業(yè)務(wù)的認(rèn)知。
數(shù)據(jù)挖掘是如何產(chǎn)生洞察力的?這個定律接近了數(shù)據(jù)挖掘的核心:為什么數(shù)據(jù)挖掘必須是一個業(yè)務(wù)過程而不是一個技術(shù)過程。業(yè)務(wù)問題是由人而非算法解決的。數(shù)據(jù)挖 掘者和業(yè)務(wù)專家從問題中找到解決方案,即從問題的定義域上達(dá)到業(yè)務(wù)目標(biāo)需要的模式。數(shù)據(jù)挖掘完全或部分有助于這個認(rèn)知過程。數(shù)據(jù)挖掘算法揭示的模式通常不 是人類以正常的方式所能認(rèn)識到的。綜合這些算法和人類正常的感知的數(shù)據(jù)挖掘過程在本質(zhì)上是敏捷的。在數(shù)據(jù)挖掘過程中,問題解決者解釋數(shù)據(jù)挖掘算法產(chǎn)生的結(jié) 果,并統(tǒng)一到業(yè)務(wù)理解上,因此這是一個業(yè)務(wù)過程。
這類似于“智能放大器”的概念,在早期的人工智能的領(lǐng)域,AI的第一個實(shí)際成果不是智能機(jī)器,而是被稱為“智能放大器”的工具,它能夠協(xié)助人類使用者提高獲取有效信息的能力。數(shù)據(jù)挖掘提供一個類似的“智能放大器”,幫助業(yè)務(wù)專家解決他們不能單獨(dú)完成的業(yè)務(wù)問題。
總之,數(shù)據(jù)挖掘算法提供一種超越人類以正常方式探索模式的能力,數(shù)據(jù)挖掘過程允許數(shù)據(jù)挖掘者和業(yè)務(wù)專家將這種能力融合在他們的各自的問題的中和業(yè)務(wù)過程中。
第七,預(yù)測律:預(yù)測提高了信息泛化能力。
“預(yù)測”已經(jīng)成為數(shù)據(jù)挖掘模型可以做什么的可接受的描述,即我們常說的“預(yù)測模型”和“預(yù)測分析”。這是因?yàn)樵S多流行的數(shù)據(jù)挖掘模型經(jīng)常使用“預(yù)測最可能的結(jié)果”(或者解釋可能的結(jié)果如何有可能)。這種方法是分類和回歸模型的典型應(yīng)用。
但是,其他類型的數(shù)據(jù)挖掘模型,比如聚類和關(guān)聯(lián)模型也有“預(yù)測”的特征。這是一個含義比較模糊的術(shù)語。一個聚類模型被描述為“預(yù)測”一個個體屬于哪個群體,一個關(guān)聯(lián)模型可能被描述為基于已知基本屬性“預(yù)測”一個或更多屬性。