中國IDC圈4月13日報(bào)道,利用數(shù)據(jù)來驅(qū)動(dòng)商業(yè)決策的制定,對于現(xiàn)在的企業(yè)來說,顯得尤為重要,企業(yè)可以因此知道如何向自己的客戶群做銷售以及服務(wù)。然而IBM調(diào)查發(fā)現(xiàn),有大約三分之一的企業(yè)領(lǐng)導(dǎo)不相信他們用來做決策制定的信息。當(dāng)企業(yè)領(lǐng)導(dǎo)人不相信自己的數(shù)據(jù)的時(shí)候,他們極有可能不會支持公司花費(fèi)精力收集更多數(shù)據(jù),反而不去利用數(shù)據(jù)。那么你可以有什么樣的辦法讓你的執(zhí)行者對他們所使用的數(shù)據(jù)信息深信不疑呢?那么首先,你應(yīng)該讓他們清除的認(rèn)識到數(shù)據(jù)本身所具備的真實(shí)性。
數(shù)據(jù)真實(shí)性
現(xiàn)如今,我們可以用很多不同種類型的性質(zhì)來描述數(shù)據(jù),在大數(shù)據(jù)時(shí)代,其中有三種關(guān)于數(shù)據(jù)的特性——規(guī)模、速度和多樣性——已經(jīng)主導(dǎo)了人們在談?wù)摯髷?shù)據(jù)話題時(shí)候的內(nèi)容。但是還有一些人又為數(shù)據(jù)的特性引入了另外三種特性(比如Value-價(jià)值,Veracity-真實(shí)性,Viability-可行性)。但是Seth Grimes正確地指出了這三種新特性正在誤導(dǎo)人們對大數(shù)據(jù)的理解,因?yàn)楹腿N特性并沒有清晰地向你解釋你的數(shù)據(jù)有何“大”之有。盡管如此,我們還是需要考慮數(shù)據(jù)的這些特性——你的數(shù)據(jù)體量龐大還是渺小,穩(wěn)定還是不斷移動(dòng),結(jié)構(gòu)化的還是非結(jié)構(gòu)化的。
你的數(shù)據(jù)的真實(shí)性關(guān)乎到數(shù)據(jù)的準(zhǔn)確和可信賴程度,也關(guān)乎數(shù)據(jù)分析得到的結(jié)果。你的數(shù)據(jù)的真實(shí)性會因其生成、收集以及分析等過程中所產(chǎn)生的不同類型誤差而收到影響。如果你的數(shù)據(jù)在處理過程中引入越多的誤差,那么你的數(shù)據(jù)的可信任程度就不會很高。
EnsuringVeracity of your Data 務(wù)必確保數(shù)據(jù)的準(zhǔn)確真實(shí)性
在2013年年初,Kate Crawford(凱特·克勞福德)在《哈弗商業(yè)評論》期刊上面以一篇名為《大數(shù)據(jù)背后隱藏的偏見》的文章發(fā)表了自己對于數(shù)據(jù)“真實(shí)性”的這種特質(zhì)的觀點(diǎn)。“如果你的足夠量的數(shù)據(jù)的話,它的數(shù)量就已經(jīng)不言而喻了”——對于這個(gè)觀點(diǎn)的爭論,凱特正確地闡述道人們?yōu)閿?shù)據(jù)賦予了發(fā)言權(quán);人們從數(shù)據(jù)當(dāng)中得出推斷,并賦予了數(shù)據(jù)跟多的內(nèi)涵。但不幸的是,人們將自己的偏見引入到了其中,無論是刻意為之還是出于無意,這種做法都將數(shù)據(jù)的質(zhì)量大打折扣。
如果向提高數(shù)據(jù)的真實(shí)性,那么你必須降低來自不同誤差源的發(fā)生頻率。這些誤差源往往和以下方面息息相關(guān):采樣方法、缺失數(shù)據(jù)、科研偏見以及差強(qiáng)人意的測量方式等。在你利用數(shù)據(jù)做出決定之前,請先認(rèn)真回答下面的問題:
1.What is (are) your hypothesis(es)? 你的假設(shè)是什么?
“大數(shù)據(jù)技術(shù)就是找到各個(gè)變量之間的關(guān)聯(lián)性而非檢測有這種關(guān)系存在的原因”——盡管該觀點(diǎn)廣受歡迎,但是我相信對于企業(yè)的長期價(jià)值而言,大數(shù)據(jù)技術(shù)應(yīng)該是弄清楚變量之間的偶然關(guān)聯(lián)問題。假設(shè)實(shí)驗(yàn)是為了辨認(rèn)出為什么變量相互之間會存在某種關(guān)聯(lián),以及驅(qū)使這些被發(fā)現(xiàn)的關(guān)系的基本流程。假設(shè)實(shí)驗(yàn)有助于通過試錯(cuò)法改進(jìn)分析模型,這樣做可以找到因果變量并幫助你從不同的條件當(dāng)中找到新發(fā)現(xiàn)。
在過剩的變量和數(shù)據(jù)集的幫助下,企業(yè)能夠快速檢測出成百上千種關(guān)系。發(fā)現(xiàn)數(shù)據(jù)中存在的統(tǒng)計(jì)學(xué)關(guān)系的可能性會在檢測關(guān)系的絕對數(shù)量時(shí)有顯著的提升。經(jīng)常因?yàn)閹茁实脑?,?dāng)變量之間的關(guān)聯(lián)性不存在原因的時(shí)候,實(shí)際上,我們可以發(fā)現(xiàn)兩個(gè)變量之間存在的統(tǒng)計(jì)學(xué)關(guān)系。因此,如果你使用這些虛假的發(fā)現(xiàn)結(jié)果為支持你現(xiàn)存的想法的化,那么這樣做的結(jié)果就是你的決策肯定不是最優(yōu)的。
你能做的就是先做一個(gè)假設(shè),然后對其進(jìn)行測試。
2.Whatare your biases? 你的偏見有哪些?
人們總是尋找/記住/解釋支持他們現(xiàn)有觀念的結(jié)果,并忽略或者低估那些無法支撐他們觀點(diǎn)的結(jié)果。這些被當(dāng)作確認(rèn)偏見的認(rèn)知捷徑,往往導(dǎo)致你對數(shù)據(jù)的錯(cuò)誤結(jié)論。
你能做什么呢?具體來講,你需要做的是就是查看你的數(shù)據(jù),并從中得到可以駁斥你的信念的證據(jù)。如果你在預(yù)測消費(fèi)者忠誠度的是時(shí)候人為產(chǎn)品質(zhì)量遠(yuǎn)比服務(wù)質(zhì)量重要的話,那么你一定要為服務(wù)質(zhì)量帶來的相關(guān)影響搜集證據(jù)。
你也不要依賴你的記憶。在任何一種數(shù)據(jù)的基礎(chǔ)上做決策的時(shí)候,記得要引述那些有相關(guān)數(shù)據(jù)出現(xiàn)的報(bào)告或者研究案例。參考你的信息員可以幫助其他人辨認(rèn)信息并幫助他們理解你的決策,并讓他們知道你將如何實(shí)現(xiàn)你的決策。如果他們得到結(jié)論和你大相徑庭,一定要弄清楚你的結(jié)論和別人相比存在怎樣的差異(數(shù)據(jù)質(zhì)量?不同的指標(biāo)?還是不同的分析?)