1.2如何交付結(jié)果?
有指導(dǎo)的數(shù)據(jù)挖掘項(xiàng)目可能會(huì)產(chǎn)生幾個(gè)不同類型的交付形式。交付形式往往是一個(gè)報(bào)表或充滿圖標(biāo)和圖形的簡報(bào)。交付形式會(huì)影響數(shù)據(jù)挖掘的結(jié)果。當(dāng)我們的目的是提醒銷售驚雷時(shí),產(chǎn)生一個(gè)營銷測試的客戶列表是不夠的。所謂的如何交付結(jié)果,就是在挖掘結(jié)果產(chǎn)生之后,我們要如何給用戶提供這個(gè)結(jié)果,目的是好的,但實(shí)際的過程中會(huì)遇到,會(huì)遇到我們沒有辦法去交付這個(gè)結(jié)果。因?yàn)?,你交付的結(jié)果,可能會(huì)導(dǎo)致一些本不該流失的客戶,卻流失了。這也是在具體工作之前,我們要考慮的問題。
數(shù)據(jù)挖掘人員的作用是確保業(yè)務(wù)問題的最后表述可以被轉(zhuǎn)換成一個(gè)技術(shù)問題。前提是正確的業(yè)務(wù)問題。
2、擇合適的數(shù)據(jù)
2.1什么數(shù)據(jù)可用?
尋找客戶數(shù)據(jù)的首要地方就是企業(yè)數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)已經(jīng)被清洗和核實(shí)過,并且多個(gè)數(shù)據(jù)源被整合到一起。一個(gè)單一的數(shù)據(jù)模型有望確保命名相似的字段在整個(gè)數(shù)據(jù)庫和兼容的數(shù)據(jù)類型中都有相同的含義。企業(yè)數(shù)據(jù)庫是一個(gè)歷史數(shù)據(jù)庫,新數(shù)據(jù)不斷的被追加,但歷史數(shù)據(jù)一直不變。從這一點(diǎn)更有利于做決策支持。
問題在于,在許多企業(yè)組織中,這樣的數(shù)據(jù)倉庫實(shí)際上并不存在,或者存在一個(gè)或多個(gè)數(shù)據(jù)倉庫,不符合直接作為規(guī)范的數(shù)據(jù)用來挖掘。在這種情況下,挖掘人員,必須尋求來自不同的部門的數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)內(nèi)的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)數(shù)據(jù)是指執(zhí)行一個(gè)特定的任務(wù),如網(wǎng)站運(yùn)行,索賠處理,完成呼叫或賬單處理。它們的目標(biāo)是快速、準(zhǔn)確的處理事務(wù),數(shù)據(jù)可以保存成任何格式。而這些對(duì)于沒有數(shù)據(jù)倉庫的一些企業(yè)來說,這些數(shù)據(jù)往往是隱藏的很深,需要大量的企業(yè)調(diào)度和規(guī)劃來整理這些數(shù)據(jù)。這也就談到了一個(gè)問題:就是數(shù)據(jù)倉庫對(duì)一家企業(yè)的重要性,而建立企業(yè)級(jí)數(shù)據(jù)倉庫,需要的決策不是一個(gè)經(jīng)理就可以完成的,這可能需要企業(yè)級(jí)最高領(lǐng)導(dǎo)下令,下面的所有部門全部配合。
在企業(yè)總確定哪些數(shù)據(jù)可用是相當(dāng)困難的。因?yàn)樵S多的文檔會(huì)丟失或過時(shí)。通常情況下,沒有一個(gè)人可以提供所有答案。確定什么數(shù)據(jù)可用,需要遍歷數(shù)據(jù)字典,了解具體的業(yè)務(wù),溝通每個(gè)部門,訪問用戶和DBA,審查現(xiàn)有的報(bào)告以及查找數(shù)據(jù)本身是否有用。還有些問題,不僅需要有關(guān)客戶的數(shù)據(jù),還需要潛在的客戶的數(shù)據(jù)。當(dāng)需要這些數(shù)據(jù)的時(shí)候,外部資源和業(yè)務(wù)系統(tǒng),如Web日志、呼叫詳細(xì)記錄、呼叫中心系統(tǒng)、有時(shí)甚至是郵件或電子表格,這些都是數(shù)據(jù)信息的來源。
數(shù)據(jù)挖掘工作的方式并不是一直等到完美和干凈的數(shù)據(jù)才進(jìn)行下一步工作。雖然需要額外干凈的數(shù)據(jù),但是受挖掘必須能夠使用目前的數(shù)據(jù),提前入手,開始工作。
2.2多少數(shù)據(jù)才足夠?
一、數(shù)據(jù)越多越好,更多意味著更好。在建模期間,必須對(duì)模型集進(jìn)行平衡,使得每個(gè)結(jié)果的數(shù)目都相等。如果在一個(gè)大規(guī)模的樣本中有一個(gè)比例很小的稀有數(shù)據(jù),則一個(gè)較小的、均衡的樣本會(huì)更受歡迎。
二、當(dāng)模型集足以建立良好的、穩(wěn)定的模型時(shí),使它更大將會(huì)產(chǎn)生相反的作用,因?yàn)檫@時(shí)需要更長時(shí)間在更大的模型上去運(yùn)行,由于數(shù)據(jù)挖掘是一個(gè)反復(fù)的過程,這就導(dǎo)致時(shí)間的浪費(fèi)。如果一次建模例程的運(yùn)行都需要數(shù)小時(shí)而不是數(shù)分鐘,這個(gè)時(shí)間的消耗就耗不起的。這就導(dǎo)致,在模型確定后,數(shù)據(jù)并不是越多越好。
2.3需要多久的歷史?
數(shù)據(jù)挖掘使用過去的數(shù)據(jù)預(yù)測未來。但是,數(shù)據(jù)需要來自多久的過去?這個(gè)沒有定性的回答,這要考慮很多的因素。另一方面,歷史上太久的數(shù)據(jù)未必對(duì)數(shù)據(jù)挖掘有用,因?yàn)槭袌霏h(huán)境在變化,特別是當(dāng)一些外部事件(如監(jiān)管制度的變化)進(jìn)行了干預(yù)時(shí)尤其如此。對(duì)于許多以客戶為中心的應(yīng)用,2-3年的歷史是合適的。然而,在這種情況下,客戶關(guān)系確實(shí)存在有效才被證明是有價(jià)值的,那么重要的是什么:最初的渠道是什么?最初的報(bào)價(jià)是什么?客戶最初怎么支付的等。
多少變量: