你還要使用推理統(tǒng)計(jì)學(xué)方法從隨機(jī)雜音當(dāng)中區(qū)分出真實(shí)的、系統(tǒng)性的以及有內(nèi)涵的數(shù)據(jù)差異。在圖片下面要加上語(yǔ)言描述。清晰的描述可以保證你的圖片不會(huì)引起太多的誤解。你也可以讓來自不同領(lǐng)域的專業(yè)人士(比如IT或者銷售)為你進(jìn)行闡述,,這樣的話你會(huì)得到關(guān)于一個(gè)數(shù)據(jù)的不同角度的解讀。
3.What isthe sample size? 樣本的大小如何?
我們幾乎很少(或者根本沒有)獲取到那些對(duì)我們感興趣的所有群體。相反,我們依靠從該群體中提取出的樣本的測(cè)量來對(duì)這些群體進(jìn)行推斷。比如從我們的客戶群(樣本)中的一部分收集消費(fèi)者滿意度信息來了解整個(gè)消費(fèi)群體的滿意度。
當(dāng)你使用樣本來理解整個(gè)群體情況的時(shí)候,你不得不去了解樣本中存在的誤差。樣本誤差可以反映出來自客戶群體數(shù)據(jù)的樣本的誤差。因?yàn)檫@種樣本僅僅是整個(gè)群體的一個(gè)子集,我們的評(píng)估僅僅會(huì)因?yàn)闃颖局皇钦麄€(gè)消費(fèi)群體的一部分,而涵蓋誤差在里面。
你可以做什么?你可以利用推斷統(tǒng)計(jì)學(xué)方法幫助你進(jìn)行理解,如果你發(fā)現(xiàn)樣本有可能會(huì)反映出整體人群當(dāng)中的情況。
4.What is the data source? 數(shù)據(jù)源是什么樣子的?
即使當(dāng)我們有大量數(shù)據(jù)集的時(shí)候,其中存在的樣本誤差可能會(huì)因?yàn)閿?shù)據(jù)量的巨大而有所降低,我們需要知道數(shù)據(jù)源在哪里——因?yàn)閿?shù)據(jù)不會(huì)憑空產(chǎn)生。我們可以刻意產(chǎn)生一些數(shù)據(jù)并進(jìn)行收集,然后通過這些數(shù)據(jù)來解決問題。比如,我們可以分析在颶風(fēng)桑迪發(fā)生期間人們發(fā)布推特的地點(diǎn),數(shù)據(jù)向我們展示了和新澤西相比,更多的博文來源于曼哈頓的鬧市區(qū)。依靠簡(jiǎn)單的數(shù)據(jù)計(jì)數(shù),你會(huì)發(fā)現(xiàn)颶風(fēng)的主要攻擊地點(diǎn)位于曼哈頓鬧市區(qū)。但事實(shí)上,颶風(fēng)襲擊的是新澤西,但是颶風(fēng)讓新澤西電力供應(yīng)癱瘓,所以人們一時(shí)無法使用推特發(fā)布推文。
除此之外,據(jù)估計(jì)僅有18%的美國(guó)青年網(wǎng)民使用推特,其年齡主要分布在18到29歲之間。同樣,在2012年僅有8%的人使用移動(dòng)設(shè)備進(jìn)行購(gòu)物并通過推特發(fā)布自己的購(gòu)物體驗(yàn)。推特,在商業(yè)情景當(dāng)中,代表了一小撮,也許也是一種有偏見的數(shù)據(jù)集。
你能做什么?仔細(xì)審查數(shù)據(jù)源,看看數(shù)據(jù)是否適合有足夠信息量來支撐你的發(fā)問。可以考慮使用不同的數(shù)據(jù)源對(duì)你的假設(shè)進(jìn)行測(cè)試。多重線路的聚合證據(jù)總比單一線路的證據(jù)更有說服力。
最后的想法
商業(yè)決策的質(zhì)量取決于商業(yè)數(shù)據(jù)的質(zhì)量(以及使用數(shù)據(jù)的預(yù)測(cè)分析模型)。如果你從最最華而不實(shí)的分析模型當(dāng)中進(jìn)行推論的時(shí)候,而且你的數(shù)據(jù)建立在不可靠而且無效的信息基礎(chǔ)之上,那么當(dāng)你的模型在實(shí)際中運(yùn)行時(shí)(比如你的模型可以預(yù)測(cè)現(xiàn)實(shí)),整個(gè)過程就像煉獄一樣。就像業(yè)內(nèi)人士說的那樣——輸入的是垃圾,輸出的也是垃圾!