同樣我們也可以分析“預(yù)測”這個(gè)術(shù)語在不同的主題中的應(yīng)用:一個(gè)分類模型可能被說成可以預(yù)測客戶行為—-更加確切的說它可以預(yù)測以某種確定行為的目標(biāo)客戶,即使不是所有的目標(biāo)個(gè)體的行為都符合“預(yù)測”的結(jié)果。一個(gè)詐騙檢測模型可能被說成可以預(yù)測個(gè)別交易是否具有高風(fēng)險(xiǎn)性,即使不是所有的預(yù)測的交易都有欺詐行為。
“預(yù)測”這個(gè)術(shù)語廣泛的使用導(dǎo)致了所謂的“預(yù)測分析”被作為數(shù)據(jù)挖掘的總稱,并且在業(yè)務(wù)解決方案中得到了廣泛的應(yīng)用。但是我們應(yīng)該意識(shí)到這不是日常所說的“預(yù)測”,我們不能期望預(yù)測一個(gè)特殊個(gè)體的行為或者一個(gè)特別的欺詐調(diào)查結(jié)果。
那么,在這個(gè)意義下的“預(yù)測”是什么?分類、回歸、聚類和 關(guān) 聯(lián)算法以及他們集成模型有什么共性呢?答案在于“評(píng)分”,這是預(yù)測模型應(yīng)用到一個(gè)新樣例的方式。模型產(chǎn)生一個(gè)預(yù)估值或評(píng)分,這是這個(gè)樣例的新信息的一部 分;在概括和歸納的基礎(chǔ)上,這個(gè)樣例的可利用信息得到了提高,模式被算法發(fā)現(xiàn)和模型具體化。值得注意的是這個(gè)新信息不是在“給定”意義上的“數(shù)據(jù)”,它僅 有統(tǒng)計(jì)學(xué)意義。
第八,價(jià)值律:數(shù)據(jù)挖掘的結(jié)果的價(jià)值不取決于模型的穩(wěn)定性或預(yù)測的準(zhǔn)確性。
準(zhǔn)確性和穩(wěn)定性是預(yù)測模型常用的兩個(gè)度量。準(zhǔn)確性是指正確的預(yù)測結(jié)果所占的比例;穩(wěn)定性是指當(dāng)創(chuàng)建模型的數(shù)據(jù)改變時(shí),用于同一口徑的預(yù)測數(shù)據(jù),其預(yù)測結(jié)果變 化有多大(或多?。?。鑒于數(shù)據(jù)挖掘中預(yù)測概念的核心角色,一個(gè)預(yù)測模型的準(zhǔn)確性和穩(wěn)定性常被認(rèn)為決定了其結(jié)果的價(jià)值的大小,實(shí)際上并非如此。
體現(xiàn)預(yù)測模型價(jià)值的有兩種方式:一種是用模型的預(yù)測結(jié)果來改善或影響行為,另一種是模型能夠傳遞導(dǎo)致改變策略的見解(或新知識(shí))。
對(duì)于后者,傳遞出的任何新知識(shí)的價(jià)值和準(zhǔn)確性的聯(lián)系并不那么緊密;一些模型的預(yù)測能力可能有必要使我們相信發(fā)現(xiàn)的模式是真實(shí)的。然而,一個(gè)難以理解的復(fù)雜的 或者完全不透明的模型的預(yù)測結(jié)果具有高準(zhǔn)確性,但傳遞的知識(shí)也不是那么有見地;然而,一個(gè)簡單的低準(zhǔn)確度的模型可能傳遞出更有用的見解。
準(zhǔn)確性和價(jià)值之間的分離在改善行為的情況下并不明顯,然而一個(gè)突出問題是“預(yù)測模型是為了正確的事,還是為了正確的原因?” 換句話說,一個(gè)模型的價(jià)值和它的預(yù)測準(zhǔn)確度一樣,都源自它的業(yè)務(wù)問題。例如,客戶流失模型可能需要高的預(yù)測準(zhǔn)確度,否則對(duì)于業(yè)務(wù)上的指導(dǎo)不會(huì)那么有效。相 反的是一個(gè)準(zhǔn)確度高的客戶流失模型可能提供有效的指導(dǎo),保留住老客戶,但也僅僅是最少利潤客戶群體的一部分。如果不適合業(yè)務(wù)問題,高準(zhǔn)確度并不能提高模型 的價(jià)值。
模型穩(wěn)定性同樣如此,雖然穩(wěn)定性是預(yù)測模型的有趣的度量,穩(wěn)定性不能代替模型提供業(yè)務(wù)理解的能力或解決業(yè)務(wù)問題,其它技術(shù)手段也是如此。
總之,預(yù)測模型的價(jià)值不是由技術(shù)指標(biāo)決定的。數(shù)據(jù)挖掘者應(yīng)該在模型不損害業(yè)務(wù)理解和適應(yīng)業(yè)務(wù)問題的情況下關(guān)注預(yù)測準(zhǔn)確度、模型穩(wěn)定性以及其它的技術(shù)度量。
第九,變化律:所有的模式因業(yè)務(wù)變化而變化。
數(shù)據(jù)挖掘發(fā)現(xiàn)的模式不是永遠(yuǎn)不變的。數(shù)據(jù)挖掘的許多應(yīng)用是眾所周知的,但是這個(gè)性質(zhì)的普遍性沒有得到廣泛的重視。
數(shù)據(jù)挖掘在市場營銷和CRM方面的應(yīng)用很容易理解,客戶行為模式隨著時(shí)間的變化而變化。行為的變化、市場的變化、競爭的變化以及整個(gè)經(jīng)濟(jì)形勢的變化,預(yù)測模型會(huì)因這些變化而過時(shí),當(dāng)他們不能準(zhǔn)確預(yù)測時(shí),應(yīng)當(dāng)定期更新。
數(shù)據(jù)挖掘在欺詐模型和風(fēng)險(xiǎn)模型的應(yīng)用中同樣如此,隨著環(huán)境的變化欺詐行為也在變化,因?yàn)樽锓敢淖冃袨橐员3诸I(lǐng)先于反欺詐。欺詐檢測的應(yīng)用必須設(shè)計(jì)為就像處理舊的、熟悉的欺詐行為一樣能夠處理新的、未知類型的欺詐行為。
某些種類的數(shù)據(jù)挖掘可能被認(rèn)為發(fā)現(xiàn)的模式不會(huì)隨時(shí)間而變化,比如數(shù)據(jù)挖掘在科學(xué)上的應(yīng)用,我們有沒有發(fā)現(xiàn)不變的普遍的規(guī)律?也許令人驚奇的是,答案是即使是這些模式也期望得到改變。理由是這些模式并不是簡單的存在于這個(gè)世界上的規(guī)則,而是數(shù)據(jù)的反應(yīng)—-這些規(guī)則可能在某些領(lǐng)域確實(shí)是靜態(tài)的。
然而,數(shù)據(jù)挖掘發(fā)現(xiàn)的模式是認(rèn)知過程的一部分,是數(shù)據(jù)挖掘在數(shù)據(jù)描述的世界與觀測者或業(yè)務(wù)專家的認(rèn)知之間建立的一個(gè)動(dòng)態(tài)過程。因?yàn)槲覀兊恼J(rèn)知在持續(xù)發(fā)展和增 長,所以我們也期望模式也會(huì)變化。明天的數(shù)據(jù)表面上看起來相似,但是它可能已經(jīng)集合了不同的模式、(可能巧妙地)不同的目的、不同的語義;分析過程因受業(yè) 務(wù)知識(shí)驅(qū)動(dòng),所以會(huì)隨著業(yè)務(wù)知識(shí)的變化而變化?;谶@些原因,模式會(huì)有所不同。