正確的數(shù)據(jù)比大量的數(shù)據(jù)更有用。這里的正確,不僅僅指結(jié)論正確,也包括取樣正確、分析方向正確。 在2013年,大數(shù)據(jù)成為了IT界最火熱的詞匯,哪個(gè)公司如果不說(shuō)自己會(huì)大數(shù)據(jù)分析,簡(jiǎn)直沒(méi)有臉在行業(yè)內(nèi)行走。但是,如果盲目地追求數(shù)據(jù)量的大,而忽視了數(shù)據(jù)的對(duì),那么就容易在錯(cuò)誤的道路上越走越遠(yuǎn)。 在各種數(shù)據(jù)統(tǒng)計(jì)教材中,有一個(gè)案例被反復(fù)提及,那就是當(dāng)年羅斯福競(jìng)選總統(tǒng)時(shí),美國(guó)著名期刊《文學(xué)文摘》放出了1000萬(wàn)份讀者調(diào)查表,并做了大量的電話調(diào)查,最后得出的結(jié)論是共和黨的蘭登將以57%對(duì)43%的絕對(duì)優(yōu)勢(shì)戰(zhàn)勝民主黨的羅斯福。而最后的結(jié)果卻是羅斯福以62%的支持率得以連任,給《文學(xué)文摘》一記響亮的耳光。 在這個(gè)例子里,是因?yàn)闃颖镜臄?shù)量不夠嗎?發(fā)出1000萬(wàn)份調(diào)查,回收240萬(wàn)份數(shù)據(jù),同樣的數(shù)據(jù)量放在今日都堪稱龐大。核心問(wèn)題在于樣本的選擇出現(xiàn)了無(wú)意識(shí)的偏差,1000萬(wàn)《文學(xué)文摘》讀者并不能代表全體美國(guó)人的特征,樂(lè)于參與調(diào)查的240萬(wàn)人跟剩下的760萬(wàn)人也沒(méi)有相似性。 由此可以看出,樣本數(shù)越大的數(shù)據(jù)分析,如果出現(xiàn)偏差的話,造成的危害越大。例如如果在10萬(wàn)個(gè)被派出所抓獲的嫖客中做一個(gè)調(diào)查,問(wèn)我國(guó)是否應(yīng)該放開(kāi)性交易,那么最后可能媒體出來(lái)的標(biāo)題紛紛是《人性啊呼喚解放,99%中國(guó)人力爭(zhēng)性交易合法化》。
三、從包皮被色誘看數(shù)據(jù)分析的精準(zhǔn)需求 
在大天二藏起來(lái)養(yǎng)傷的時(shí)候,東興烏鴉手下的四眼仔為了找到大天二的行蹤,派出了自己那豐滿黃毛小太妹去色誘包皮,這一招就叫做精準(zhǔn)。因?yàn)樗绻沙鰩装偃巳M大街打聽(tīng),性價(jià)比低又容易打草驚蛇,如果去色誘陳浩南山雞,他們壓根看不上這種胸大無(wú)腦的粗俗小太妹。而包皮呢?作為能接觸到大天二信息的核心骨干,正是最好的突破點(diǎn)。 這就是在開(kāi)始做任何數(shù)據(jù)分析之前,一定要先清楚自己最想要什么,得到想要的結(jié)果哪些數(shù)據(jù)是必需的,不盲目地?cái)U(kuò)展維度,那樣的話只會(huì)讓分析結(jié)果混亂不堪。 不管是對(duì)于一個(gè)網(wǎng)站還是對(duì)于一個(gè)應(yīng)用來(lái)說(shuō),會(huì)有很多種數(shù)據(jù)指標(biāo),先要想清楚自己最關(guān)注哪個(gè)指標(biāo),然后再看跟這一指標(biāo)強(qiáng)相關(guān)的是哪幾個(gè)數(shù)據(jù),最后再得出結(jié)論和運(yùn)營(yíng)方案。例如對(duì)于網(wǎng)站,老板最關(guān)注的是UV數(shù)據(jù),那么在做方案的時(shí)候就要關(guān)注到站外流量最大的導(dǎo)入方、SEO關(guān)鍵詞、第三方平臺(tái)的分享量等。如果老板最關(guān)注PV數(shù)據(jù),那么運(yùn)營(yíng)就需要注意用戶瀏覽頁(yè)面數(shù)、用戶停留時(shí)間、用戶的二跳頁(yè)面等等。
四、我不是教你詐之?dāng)?shù)據(jù)陷阱 在很多人眼中,數(shù)據(jù)是最公正最客觀最鐵面無(wú)私的,恨不得把數(shù)據(jù)提升到頂禮膜拜的地步。但數(shù)據(jù)其實(shí)就是工作的一個(gè)伙伴,好的數(shù)據(jù)就是神一樣的隊(duì)友,不好的數(shù)據(jù)就是豬一樣的隊(duì)友。數(shù)據(jù)分析本身沒(méi)有對(duì)錯(cuò)之分,只有合適不合適,合理不合理。(在基本的數(shù)學(xué)運(yùn)算無(wú)誤的情況下) 美國(guó)佐治亞州曾經(jīng)在2011年和2012年陸續(xù)宣布了對(duì)亞特蘭大市35位教育工作者的65項(xiàng)指控,這些人中,大部分是校長(zhǎng)、年級(jí)主任。指控主要集中在考試舞弊。因?yàn)閬喬靥m大市從2005年開(kāi)始,學(xué)生的各項(xiàng)成績(jī)有了階梯性的進(jìn)步,最開(kāi)始所有人都夸獎(jiǎng)新上任的教育主管教導(dǎo)有方。 但是后來(lái),州教育部門在做數(shù)據(jù)統(tǒng)計(jì)的時(shí)候,突然發(fā)現(xiàn)亞特蘭大市學(xué)生的答卷上,由錯(cuò)改對(duì)的比例遠(yuǎn)遠(yuǎn)大于其他地方的學(xué)生。要知道從概率上來(lái)說(shuō),一個(gè)學(xué)生的答題因?yàn)槠渫蝗淮蛲ㄈ味蕉},由錯(cuò)改對(duì)還有點(diǎn)兒可能,但是如果一個(gè)考場(chǎng)的學(xué)生涂改的痕跡全部都是把錯(cuò)誤的改成正確的,這概率微乎其微。 就由這一點(diǎn)數(shù)據(jù)異常著手,從而破獲了讓整個(gè)世界瞠目結(jié)舌的亞特蘭大考試舞弊案。最令人發(fā)指的事情是有一群老師在考試后舉辦了一個(gè)披薩狂歡派對(duì),在派對(duì)上大家把學(xué)生做錯(cuò)的試題全部改成了正確的。 這才是教育界的業(yè)界良心啊?。?! 如今的數(shù)據(jù)越來(lái)越多,陷阱也越來(lái)越多,有時(shí)玩弄下文字游戲就能讓業(yè)績(jī)看起來(lái)高大上起來(lái)。我有一個(gè)QQ群,群里一共有三位男士,在今年的某一天,其中的一位土豪朋友給他老婆買了一件生日禮物,是一輛保時(shí)捷SUV,價(jià)值120萬(wàn)。后來(lái),我對(duì)老婆說(shuō):“在這個(gè)群里,每個(gè)男人今年平均給自己老婆的生日禮物價(jià)值40萬(wàn)人民幣,你還有什么不滿意的?”那天,家里的平底鍋終于派上了用場(chǎng)。 曾經(jīng)有某個(gè)應(yīng)用的運(yùn)營(yíng)同學(xué)寫過(guò)一份周報(bào),“經(jīng)過(guò)一周的運(yùn)營(yíng)推廣,本應(yīng)用的下載量提升了100%”。我看了之后對(duì)其崇拜之情油然而生,這就是力挽狂瀾??!后來(lái),他酒后對(duì)我說(shuō):“其實(shí)我就是把下載量從之前的25個(gè)提升到了50個(gè)。”剎那間,我明白了,原來(lái)他只是在一個(gè)小的QQ群里推廣了一下。由此可見(jiàn),喝酒有害健康。 除了文字游戲,數(shù)據(jù)背后的產(chǎn)生過(guò)程也往往陷阱密布。例如一個(gè)高中理科班,里面一共有10個(gè)女生,平均罩杯是B,而在高二的時(shí)候,里面一個(gè)A罩杯的女生轉(zhuǎn)學(xué)了,平均罩杯變成了C。那么從數(shù)據(jù)上,我們是可以得出這樣的結(jié)論“從B罩杯到C罩杯,高中學(xué)習(xí)有利于女生身材養(yǎng)成”。 同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成績(jī)就提高了。所以未來(lái)在看到任何數(shù)據(jù)的時(shí)候,請(qǐng)不要馬上就歡呼雀躍或者垂頭喪氣,先去想一想,數(shù)據(jù)合理嗎?
2/3 首頁(yè) 上一頁(yè) 1 2 3 下一頁(yè) 尾頁(yè)