不熟練數(shù)據(jù)挖掘的人員有時(shí)太急于拋出不太可能有意義的變量,且只保存了他們認(rèn)為重要的幾個(gè)精心挑選的變量。數(shù)據(jù)挖掘方法要求數(shù)據(jù)本身能揭示它重要或不重要。
通常情況下當(dāng)與其他變量結(jié)合使用時(shí),原先被忽視的變量會(huì)具有預(yù)測(cè)價(jià)值。例如:一個(gè)信用卡者從未把把現(xiàn)金刷沒(méi)又繼續(xù)刷,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)他們僅在11月和12月才會(huì)使用用信用卡墊付。據(jù)推測(cè),這些人非常謹(jǐn)慎,大部分時(shí)間他們都避免因多刷而產(chǎn)生的高利息,謹(jǐn)慎也推斷出一個(gè)結(jié)論(他們比習(xí)慣使用現(xiàn)金墊款的人更加不太可能選擇拖欠欠款),但在假期,他們需要一些額外的現(xiàn)金,并愿意為此付出較高的利息。
2.4數(shù)據(jù)必須包含什么?
最低限度,數(shù)據(jù)必須包含有可能有意義的結(jié)果的例子。有指導(dǎo)數(shù)據(jù)挖掘的目的是預(yù)測(cè)一個(gè)特定目標(biāo)變量的值,但在有指導(dǎo)的數(shù)據(jù)挖掘中,模型集必須由分類好的數(shù)據(jù)組成。要區(qū)分哪些人拖欠貸款哪些人不可能拖欠,模型集的每個(gè)類都需要有成千上萬(wàn)的例子。當(dāng)一個(gè)新的申請(qǐng)產(chǎn)生時(shí),他的申請(qǐng)會(huì)與過(guò)去的客戶的申請(qǐng)進(jìn)行對(duì)比,可以直接把新的申請(qǐng)歸類。這其中隱含的意思:數(shù)據(jù)可用來(lái)形容過(guò)去發(fā)生了什么事情,從錯(cuò)誤總吸取教訓(xùn),首先我們必須識(shí)別我們已經(jīng)犯了什么錯(cuò)。
3、認(rèn)識(shí)數(shù)據(jù)
在數(shù)據(jù)用于構(gòu)建模型之前,在探索數(shù)據(jù)上花費(fèi)時(shí)間的重要性通常沒(méi)有得到足夠的重視。后面我們會(huì)抽出絕對(duì)的篇幅來(lái)說(shuō)明這個(gè)問(wèn)題。優(yōu)秀的數(shù)據(jù)挖掘工程師似乎非常依賴直覺(jué)——例如,某種程度上能夠猜測(cè)將要派生的變量結(jié)果如何。要在陌生的數(shù)據(jù)集中利用直覺(jué)來(lái)感應(yīng)發(fā)生了什么事情,唯一辦法就是陷入數(shù)據(jù)之中,你會(huì)發(fā)現(xiàn)許多數(shù)據(jù)質(zhì)量的問(wèn)題,并能夠得到啟發(fā)提出在其他情況下不容易被發(fā)現(xiàn)的問(wèn)題。
3.1檢查分布
在數(shù)據(jù)庫(kù)的初步探索階段,數(shù)據(jù)可視化工具非常有益,如:散列圖、條形圖、地理地圖、Excel等可視化工具對(duì)觀察數(shù)據(jù)提供了強(qiáng)大的支持。
當(dāng)你開始著手一個(gè)新數(shù)據(jù)源中的數(shù)據(jù)文件,就應(yīng)該剖析數(shù)據(jù)了解到底發(fā)生了什么,包括計(jì)數(shù)和每個(gè)字段的匯總統(tǒng)計(jì),分類變量不同值的數(shù)量,并在適當(dāng)?shù)那闆r下,需要基于產(chǎn)品和區(qū)域的交叉統(tǒng)計(jì)表。除了提供對(duì)數(shù)據(jù)的了解,剖析工作可能會(huì)產(chǎn)生不一致問(wèn)題或定義問(wèn)題的警告,這些問(wèn)題可能會(huì)對(duì)后面的分析造成麻煩。
3.2值與描述的比較
觀察每個(gè)變量的值,并把它們與現(xiàn)有文件中的變量描述進(jìn)行比較。這項(xiàng)工作可以發(fā)現(xiàn)不準(zhǔn)確或不完整的數(shù)據(jù)描述。其實(shí)是,你記錄的數(shù)據(jù),是否和你要描述的數(shù)據(jù)一致,這個(gè)要先確定。目的是什么?在實(shí)際的數(shù)據(jù)挖掘過(guò)程中,你要去揣測(cè)這個(gè)字段的數(shù)據(jù)到底是什么意思?如果業(yè)務(wù)人員知道,那是最好的了。如果業(yè)務(wù)人員都不知道,這個(gè)時(shí)候,可能就需要憑借經(jīng)驗(yàn)去揣測(cè)了,而且這種情況經(jīng)常發(fā)生,字段定義不明確。
3.3詢問(wèn)大問(wèn)題
如果數(shù)據(jù)看上去似乎不明智或者不如所愿,記錄下來(lái)。數(shù)據(jù)探索過(guò)程的一個(gè)重要輸出是對(duì)提供該數(shù)據(jù)的人給出一個(gè)問(wèn)題列表。通常,這些問(wèn)題將需要進(jìn)一步研究,因?yàn)楹苌儆杏脩粝駭?shù)據(jù)挖掘工程師一樣仔細(xì)地觀察數(shù)據(jù)。對(duì)數(shù)據(jù)的探索的前期工作,判斷字段,含義,是否有用,是否缺失,是否有問(wèn)題等一系列問(wèn)題,需要大量的工作,同時(shí)也是一件心細(xì)的過(guò)程。
4、創(chuàng)建一個(gè)模型集
模型集包含建模過(guò)程中使用的所有數(shù)據(jù)。模型集中的一些數(shù)據(jù)被用來(lái)尋找模式,對(duì)于一些技術(shù),模型集中的一些數(shù)據(jù)被用來(lái)驗(yàn)證該模型是否穩(wěn)定。模型集也可用來(lái)評(píng)估模型的性能。創(chuàng)建一個(gè)模型集需要從多個(gè)數(shù)據(jù)源聚合數(shù)據(jù)以形成客戶簽名,然后準(zhǔn)備數(shù)據(jù)進(jìn)行分析。
4.1聚合客戶簽名
模型集是一個(gè)表或一系列表,每一行表示一個(gè)要研究的項(xiàng)目,而字段表示該項(xiàng)目有利于建模的一切。當(dāng)數(shù)據(jù)描述客戶時(shí),模型集的行通常稱為客戶簽名??蛻艉灻?,每個(gè)客戶都由他離開的蹤跡唯一確定,你可以利用蹤跡充分的了解每個(gè)客戶。
從關(guān)系型數(shù)據(jù)庫(kù)中聚合客戶簽名旺旺需要復(fù)雜的查詢,這些查詢往往需要關(guān)聯(lián)很多的表去查詢的數(shù)據(jù),然后利用其他來(lái)源的數(shù)據(jù)增強(qiáng)結(jié)果。聚合數(shù)據(jù)的一部分過(guò)程是使數(shù)據(jù)位于正確的匯總層次,然后每一行都包含先關(guān)客戶的所有信息。