一、 什么是商業(yè)智能?
商業(yè)智能=商業(yè)+智能
商業(yè)和智能的關(guān)系,如圖1:智能技術(shù)根據(jù)商業(yè)知識(shí),出報(bào)表和建立分析模型,并且運(yùn)用商業(yè)知識(shí)檢驗(yàn)和解釋報(bào)表和模型準(zhǔn)確與否,而根據(jù)出來(lái)的報(bào)表和分析/挖掘模型結(jié)果,又能對(duì)商業(yè)運(yùn)作提供數(shù)據(jù)與決策參考。
圖1 商業(yè)智能=商業(yè)+智能
首先是商業(yè)檢驗(yàn)智能技術(shù)。商業(yè)目標(biāo)以及商務(wù)流程,限定了你能選用的分析方法,比如客戶分類問(wèn)題,就不能用聚 類算法解決;商務(wù)流程上無(wú)法給樣本本身打上標(biāo)簽,就很難用分類算法訓(xùn)練模型。忘掉啤酒和尿布吧,那只是個(gè)號(hào)稱刊登在《哈佛商業(yè)評(píng)論》上的傳說(shuō),這種業(yè)務(wù)上 很難解釋的事件被傳得神乎其神,如果是真的,早被廣泛應(yīng)用了。所以模型一定要在商業(yè)上解釋得通,通常一兩個(gè)小概率小范圍事件對(duì)整體是不會(huì)有很大影響的。好 比看起來(lái)不錯(cuò)的創(chuàng)新點(diǎn)子,不可能將其實(shí)現(xiàn)就產(chǎn)生賺錢(qián)的產(chǎn)業(yè)鏈,而是要考慮方方面面的因素以及有效的執(zhí)行。
其次是智能技術(shù)指導(dǎo)商業(yè)行為。比如埃森哲 利用數(shù)據(jù)挖掘?qū)κ袌?chǎng)/客戶進(jìn)行細(xì)分,針對(duì)不同行為特征的客戶,推薦/制定產(chǎn)品,以期更貼近客戶的需求,利用技術(shù)指導(dǎo)商業(yè)。這是一個(gè)考驗(yàn)執(zhí)行力的過(guò)程。目前 許多案例往往是不成功的,其中一個(gè)原因在于市場(chǎng)部處于一線經(jīng)營(yíng),主導(dǎo)地位,其話語(yǔ)權(quán)通常大于技術(shù)部。假設(shè)你是一線經(jīng)營(yíng)人員,有自己的立場(chǎng)、觀點(diǎn)、人脈、營(yíng) 銷模式,甚至諱莫如深的自身利益。讓業(yè)務(wù)人員從工作習(xí)慣上去改變,尚且不易,更不用說(shuō)觸碰到他們的利益線了。所以國(guó)內(nèi)很多大型國(guó)有企業(yè)做出來(lái)的BI系統(tǒng), 很多是做表面文章,耗資百萬(wàn)的系統(tǒng)做好了卻閑置。
拋開(kāi)立場(chǎng)、自身利益因素不談,國(guó)內(nèi)BI就做得很好了么?答案當(dāng)然是否定的,這是因?yàn)?,業(yè)務(wù)人員不懂技術(shù),技術(shù)人員不懂業(yè)務(wù)。筆者曾經(jīng)見(jiàn)過(guò)一個(gè)在移動(dòng)內(nèi)部,做了七八年的技術(shù)人員,因?yàn)橛休^長(zhǎng)的從業(yè)經(jīng)驗(yàn),跟業(yè)務(wù)人員溝通比較多,只要業(yè)務(wù)人員提需求,他就能在極短時(shí)間內(nèi)給出數(shù)據(jù),甚至能引導(dǎo)迷糊的業(yè)務(wù)員理清思路。但他的經(jīng)驗(yàn),很難復(fù)制,畢竟出了學(xué)校,培養(yǎng)一名商業(yè)智能從業(yè)者應(yīng)該只有少于1年的時(shí)間。
那么讓我們從商業(yè)和智能的角度,來(lái)看看知識(shí)分解吧,可以供初學(xué)者參考,也可以供高手拍磚,如圖2
二、 數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)庫(kù)是數(shù)據(jù)的承載,數(shù)據(jù)倉(cāng)庫(kù)是有主題的數(shù)據(jù)庫(kù)。
效率高的數(shù)據(jù)倉(cāng)庫(kù)不那么容易設(shè)計(jì)出來(lái)的,多大數(shù)據(jù)量使用范式設(shè)計(jì),多大使用反范式設(shè)計(jì),為什么使用反范式設(shè)計(jì)(空間換時(shí)間),哪些表在業(yè)務(wù)上使用頻繁需要分割,哪些字段需要合并成一張常用表等等。
涉及到數(shù)據(jù)分析的一個(gè)問(wèn)題是數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量又可以分成兩大塊,“臟”數(shù)據(jù)的處理和數(shù)據(jù)來(lái)源口徑的追溯。前面舉的啤酒尿布例子,得到不符合常理的結(jié)果后, 應(yīng)該首先檢查數(shù)據(jù)質(zhì)量是否有問(wèn)題。若數(shù)據(jù)質(zhì)量有問(wèn)題,那么后面的分析必然不準(zhǔn)確,所謂garbage in garbage out!
三、報(bào)表
報(bào)表這種原始的BI方式有時(shí)候是簡(jiǎn)單有效,但要做一張優(yōu)秀的報(bào)表似乎又要考慮很多問(wèn)題。首先是確定報(bào)表的目的,這樣才能定下報(bào)表是清單級(jí)還是匯總級(jí);其次選 擇字段,個(gè)人認(rèn)為應(yīng)該符合MECE(Mutually Exclusive Collectively Exhaustive),信息不全或者信息冗余,對(duì)分析都會(huì)形成干擾;再次是對(duì)字段做維度聚類,并做重要性排序,重要的,能做分析思路索引的,要排在前 面。當(dāng)然一張優(yōu)秀的報(bào)表絕不應(yīng)拘泥于以上,需要在工作中多思考和體會(huì)了。
四、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘講了很多了。如果往簡(jiǎn)單來(lái)說(shuō),可以有 BI=圖表+數(shù)據(jù)挖掘的理解,雖然不甚全面。數(shù)據(jù)挖掘作為報(bào)表這種非智能性BI的一種補(bǔ)充,理論上應(yīng)該屬于機(jī)器學(xué)習(xí)的一種,存在著那么一點(diǎn)兒讓計(jì)算機(jī)自學(xué) 的能力。按算法來(lái)分類也就預(yù)測(cè)、分類、聚類、關(guān)聯(lián)那么幾種,大多都封裝好的,使用起來(lái)很方便,普通應(yīng)用只需要知道怎么讀數(shù)據(jù)挖掘軟件給出的報(bào)告即可,關(guān)鍵 點(diǎn)是緊扣商業(yè)理解,難點(diǎn)和被忽視的地方會(huì)在接下來(lái)的算法知識(shí)塊提到。至于SAS, SPSS,Modeler, R, MATLAB這些挖掘工具之爭(zhēng),那就見(jiàn)仁見(jiàn)智了。但有一點(diǎn)我很肯定,如果你初學(xué)數(shù)據(jù)挖掘,那么推薦Modeler,簡(jiǎn)單的操作界面和輕松的DEMO,大大 降低了數(shù)據(jù)挖掘的入門(mén)難度。
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):