中國IDC圈6月14日報(bào)道,建模無疑是大數(shù)據(jù)里面最藝術(shù)的部分,也是最令大數(shù)據(jù)從業(yè)者癡迷、得意的領(lǐng)域,一個(gè)好的模型就是一篇作品,是一首詩,令人心曠神怡。建模、模型并不是什么新鮮事物,它們早已出現(xiàn)在很多場合,譬如“產(chǎn)品模型”、“推薦模型”、“營銷模型”、“挖掘模型”等等。但,它們有什么不同?
建模的幻影有千萬種,有些人做過,有些人沒做過,我們該如何看待?建模是不是需具備很多專業(yè)知識,非專業(yè)人士無法掌握?小白楊的所思所想,都在下面的文字。
一、建模并不神秘:讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)
一些建模的觀點(diǎn)已在前面的道與法兩篇體現(xiàn),歸納如下:
建模的本質(zhì)就是讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。 人類、智能體的認(rèn)知、行動(dòng)需要用到不同的數(shù)據(jù)(Know->行動(dòng)),如果這個(gè)數(shù)據(jù)沒有被直接掌握,那就要基于已知的事實(shí)數(shù)據(jù)推測,這個(gè)過程就是“建模”,得到的結(jié)果就是一個(gè)新的“數(shù)據(jù)”。
建模就是在做偵探, 都是利用已掌握的大量的、不完整的、不一定可信的事實(shí)數(shù)據(jù)推導(dǎo)還原事實(shí)的全部。幾乎所有的領(lǐng)域都涉及建模。
模型分三大類,但萬變不離其宗。
第一類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測相關(guān)聯(lián)的其它事實(shí)數(shù)據(jù),譬如應(yīng)用人的屬性、行為數(shù)據(jù)推測它的消費(fèi)需求;
第二類,利用已知的事實(shí)數(shù)據(jù)計(jì)算推測規(guī)律性的數(shù)據(jù),譬如基于歷史的購買記錄分析商品的銷售趨勢、細(xì)分比較等;
第三類,利用已知的細(xì)節(jié)事實(shí)數(shù)據(jù)組合建立對事實(shí)全局的認(rèn)識(數(shù)據(jù)),譬如從生效時(shí)間、適用區(qū)域及客戶群、定價(jià)等維度建立產(chǎn)品模型,其實(shí)就是綜合這些細(xì)節(jié)數(shù)據(jù)形成了一個(gè)“產(chǎn)品”的“數(shù)據(jù)”。
對“新”的數(shù)據(jù)的認(rèn)識不要拘泥于一定要和以前的數(shù)據(jù)不一樣,多個(gè)數(shù)據(jù)組合形成新的含義也是一種新的數(shù)據(jù)。
數(shù)據(jù)是人類對世界的觀測,把客觀世界抽樣、采集到數(shù)字世界里面,建模就是要在數(shù)字世界里面把客觀事實(shí)還原回來、預(yù)測它的發(fā)展。有趣的是,在數(shù)字世界里面,可以打破客觀物質(zhì)的當(dāng)前認(rèn)知局限,任意交叉組合,從而有無限創(chuàng)新的可能。
總結(jié)一下,建模本質(zhì)就是對已知數(shù)據(jù)的組合、簡單或者復(fù)雜的計(jì)算處理,最終轉(zhuǎn)換成一個(gè)新的數(shù)據(jù),從而影響行動(dòng)。
不同類型建模差別很大,接下來我們將聚焦到數(shù)據(jù)營銷領(lǐng)域來探討,部分觀點(diǎn)不具備普適性。
二、建模的六大誤區(qū)
誤區(qū)一:會(huì)用工具等于會(huì)建模? 數(shù)據(jù)挖掘 大多遵循CRISP-DM流程,弄來很多的數(shù)據(jù)維度(有甚者上百種),選取某一種算法,找來訓(xùn)練集訓(xùn)練出一堆莫名其妙的規(guī)則,輸出的目標(biāo)用戶特征誰也說不清楚,只能告訴你支持度、置信度多少。這個(gè)過程本來是沒有問題的,前提條件是有明確的挖掘方向。但是很多人都錯(cuò)把業(yè)務(wù)目標(biāo)當(dāng)挖掘方向了。
真正的建模應(yīng)該從業(yè)務(wù)目標(biāo)開始,先基于業(yè)務(wù)目標(biāo)理解客戶分解挖掘方向(特征明顯的群體),再找數(shù)據(jù)用算法關(guān)聯(lián)推導(dǎo)。懂工具能很好的完成挖掘方向到目標(biāo)結(jié)果的過程,但業(yè)務(wù)目標(biāo)到挖掘方向這個(gè)過程就不是只掌握工具就能夠勝任的了。銳的洞察挖掘方向、正確的數(shù)據(jù)選取是建摸的核心能力,比掌握工具更加重要!
誤區(qū)二:建模不與實(shí)際銷售場景相結(jié)合! 某央企(莫亂猜)各省公司大數(shù)據(jù)成功案例滿天飛,模型成功率動(dòng)輒30-40%。筆者看到的時(shí)候自慚形愧,也一直很納悶,做了這么多年精準(zhǔn)營銷,大部分模型的營銷成功率都是幾個(gè)百分點(diǎn),兩位數(shù)以上的鳳毛麟角,怎么別人的水平都已經(jīng)趕超美帝了!后來終于搞明白,原來他們的目標(biāo)客戶在各種渠道成功下單都算,不管是否施加了營銷動(dòng)作,而我們只統(tǒng)計(jì)針對目標(biāo)用戶采取營銷動(dòng)作的直接轉(zhuǎn)化下單。他們得意于挖出目標(biāo)用戶的精準(zhǔn),其實(shí),這些模型的高成功率只能說明這批用戶自然轉(zhuǎn)化率高,找出這些用戶并無實(shí)質(zhì)意義,因?yàn)椴皇┘尤魏蝿?dòng)作用戶就已經(jīng)購買了,挖它出來干嘛?