第一步,找到核心數(shù)據(jù)。核心數(shù)據(jù)現(xiàn)在對(duì)很多企業(yè)來說實(shí)際上就是CRM,自己的用戶系統(tǒng),這是最重要的。
第二步,常規(guī)渠道的數(shù)據(jù)。舉例來說一個(gè)銷售快銷品的企業(yè),能不能夠得到沃爾瑪?shù)臄?shù)據(jù),家樂福的數(shù)據(jù)?很多國(guó)外大數(shù)據(jù)的案例,說消費(fèi)者買啤酒的時(shí)候也會(huì)購(gòu)買剃須刀之類,或者一個(gè)母嬰產(chǎn)品的消費(fèi)者她今天在買這個(gè)產(chǎn)品,預(yù)示著她后面必然會(huì)買另一個(gè)產(chǎn)品。這就有一個(gè)前期的挖掘。這些價(jià)值怎么來的,這就需要企業(yè)去找常規(guī)渠道里面的數(shù)據(jù),跟自己的CRM結(jié)合起來,才能為自己下一步做市場(chǎng)營(yíng)銷、做推廣、產(chǎn)品創(chuàng)新等建立基礎(chǔ)。
第三步,外部的社會(huì)化的或者非結(jié)構(gòu)化的數(shù)據(jù),即現(xiàn)在所謂的社會(huì)化媒體數(shù)據(jù)。這方面信息的主要特征是非結(jié)構(gòu)化,而且非常龐大。這對(duì)企業(yè)來說最大的價(jià)值是什么?當(dāng)你的用戶在社會(huì)化媒體上發(fā)言的時(shí)候,你有沒有跟他建立聯(lián)系?這里有個(gè)概念叫做DC(digital connection)。所謂的互聯(lián)網(wǎng)實(shí)際就是一種DC,但是通常互聯(lián)網(wǎng)上的那種DC是在娛樂層面。用到商業(yè)里面的話,就是企業(yè)必須得跟消費(fèi)者建立這種DC關(guān)系,它的價(jià)值才能發(fā)揮出來。否則,你的數(shù)據(jù)以及很多的CRM數(shù)據(jù)都是死的。就像國(guó)外CRM之父Paul Greenberg寫的四本CRM相關(guān)書籍,前面三本都是在講數(shù)據(jù)庫(kù)、系統(tǒng)之類的。第四本書的時(shí)候,就沒有再講那些東西,講什么?講互動(dòng),講DC,講怎么跟消費(fèi)者建立關(guān)系。
有了這個(gè)數(shù)據(jù)庫(kù)去進(jìn)行數(shù)據(jù)挖掘,或者在建立數(shù)據(jù)的過程中,企業(yè)需要從什么方向去探索,也不是漫無目的的。首先應(yīng)該跟著你的業(yè)務(wù),業(yè)務(wù)現(xiàn)在有哪些問題,或者說這個(gè)行業(yè)里面主要的競(jìng)爭(zhēng)點(diǎn)在哪里,這是很關(guān)鍵的。有了這個(gè)業(yè)務(wù)關(guān)系以后,再形成假設(shè),也就是說未來的競(jìng)爭(zhēng)點(diǎn)可能在哪里,大到未來的戰(zhàn)略競(jìng)爭(zhēng),小到哪些方面。然后下一步要怎么做,這些形成一個(gè)假設(shè),其次做一些小樣本的測(cè)試。
很多企業(yè)一看大數(shù)據(jù)就很恐怖,說我也買不起那些大數(shù)據(jù),也雇不起那么專業(yè)的團(tuán)隊(duì),怎么辦?
自己做一些小樣本的測(cè)試,甚至通過電子表格Excel都可以做數(shù)據(jù)挖掘。不一定非要那么龐大、那么貴的數(shù)據(jù)。然后再做大樣本的驗(yàn)證,驗(yàn)證出來的結(jié)果就可以應(yīng)用到現(xiàn)實(shí)中去。在大數(shù)據(jù)尤其是互聯(lián)網(wǎng)時(shí)代還有一個(gè)最重要的點(diǎn),就是失效預(yù)警。即你發(fā)現(xiàn)一個(gè)規(guī)律,在現(xiàn)實(shí)中應(yīng)用了,但是你一定要設(shè)立一些預(yù)警指標(biāo)。就是當(dāng)指標(biāo)達(dá)到什么程度的時(shí)候,之前發(fā)現(xiàn)的規(guī)律失效,那你就必須發(fā)現(xiàn)新的、相關(guān)的,否則也會(huì)造成一種浪費(fèi)。筆者看到一篇文章,其中有一個(gè)重要結(jié)論。大家都在說大數(shù)據(jù)的價(jià)值很有用的時(shí)候,很多企業(yè)說我積累了多少TB,多少PB,但是你基于老的數(shù)據(jù)得出的很多結(jié)論實(shí)際是在浪費(fèi)你的資源。你挖掘出來很多數(shù)據(jù)、很多規(guī)律,如果錯(cuò)了,明天按這個(gè)去做,就是浪費(fèi)。因此需要有一個(gè)失效預(yù)警。在這樣的過程中,最終你需要對(duì)應(yīng)建立起內(nèi)部團(tuán)隊(duì),他們對(duì)數(shù)據(jù)的敏感度也才能培養(yǎng)起來。這時(shí)候你再去買大數(shù)據(jù)服務(wù)的時(shí)候才是有價(jià)值的。
所有這些工作作為企業(yè)來說是需要內(nèi)部去做的,最終才能開花結(jié)果,有一些收獲。企業(yè)大數(shù)據(jù)起步,要從小數(shù)據(jù)開始。
9、大數(shù)據(jù)處理中數(shù)據(jù)質(zhì)量監(jiān)控從哪幾個(gè)方面進(jìn)行?
大數(shù)據(jù)處理中數(shù)據(jù)質(zhì)量監(jiān)控,從以下幾個(gè)方面進(jìn)行:
數(shù)據(jù)容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值的和潛在的信息;
數(shù)據(jù)種類(Variety):數(shù)據(jù)類型的多樣性; 數(shù)據(jù)速度(Velocity):指獲得數(shù)據(jù)的速度;
數(shù)據(jù)可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程;
數(shù)據(jù)真實(shí)性(Veracity):數(shù)據(jù)的質(zhì)量;
數(shù)據(jù)復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道。 “大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
10、大數(shù)據(jù)是否存在泡沫呢?
這是必然的,任何一個(gè)影響極大的“概念”被炒作起來后,都會(huì)在一段時(shí)間內(nèi)形成強(qiáng)大的原動(dòng)力,使各行各業(yè)的人們?yōu)橹冻龌蛘婊蚣?、或?qū)嵒蛱摰呐?,群眾的力量是龐大的,因此這一新事物將有力的推動(dòng)一下歷史的進(jìn)程,當(dāng)又一個(gè)新的技術(shù)或理論出來后,前一個(gè)被推向高潮的概念就成了泡沫了。
“大數(shù)據(jù)”是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,靠人腦是無法進(jìn)行處理的,結(jié)論的真假優(yōu)劣完全取決于使用的軟件,所以其結(jié)果絕非完美無瑕,作為商業(yè)用途,能夠提供一些參考,既然只能作為一個(gè)參考,那么將之推高到一定程度的時(shí)候就會(huì)形成泡沫,漸漸被人遺棄和遺忘。