二、大數據結論是統(tǒng)計學意義上的整體性結論,并不是針對個體
任何基于統(tǒng)計學的理論分析和結論都是整體性的。阿西莫夫在他的著作《基地》里完美的闡述了這一觀點。哈利.謝頓以銀河系里2000萬星球上百億億居民為研究對象,成功創(chuàng)建了心理歷史學,并以此成功預測了銀河帝國會經歷長達三萬年的黑暗野蠻時期和銀河第二帝國的出現。但無法用該理論預測個體。所以它無法預言變異人騾的出現。若非第二基地的存在,整個復興計劃險些失控?!妒Э亍芬裁枋隽祟愃频默F象。深海里的魚群作為一個整體,行為規(guī)律非常容易預測。但單個個體行為毫無規(guī)律,難以預測。淘寶/天貓的“千人千面”是大數據時代的重要嘗試。其核心基于大數據,為淘寶/天貓客戶展現個性化搜索結果。該項目核心細節(jié)并不為外人所知,但基于理論分析,可以做出合理的推測。首先,淘寶/天貓搜集的數據一定不是所謂的“全量數據”,現有條件下,很多與顧客購買興趣相關的核心數據無法被搜集。其次,即使模型準確率能達到99%,對于一個上億規(guī)模的平臺來說,也有近千萬的客戶會有比較差的用戶體驗。基于此,“千人千面”個性化程度必須做合理化約束,否則,理想越美好,現實就會越骨感。
三、相關性始終不是因果,這方面應用陷阱和機會一樣多
相關性分析是數據分析利器,同時又是最容易引入問題的地方。相關并不是因果。統(tǒng)計數據顯示,冰淇淋銷量上升時,水中溺死人數會迅速上升,兩者之間呈現極強的正相關。那么冰淇淋消費會引起人溺死嗎?答案顯然是否定的。只是天氣炎熱會同時增加冰淇淋消費和人們水上活動的幾率。一個更有說服力的例子是某個時期的統(tǒng)計數據顯示,白酒價格和牧師收入之間有極強的正相關。難道牧師群體們一個個都是“酒肉穿腸過,佛祖心中留”?答案也是否定的,其真實原因只是因為通貨膨脹同時導致了白酒價格和牧師收入水平上漲。在大數據時代,相關與因果的混淆可能導致的問題會遠超以往。大數據時代,數據極為充分,計算能力極強,可以發(fā)現以往無法發(fā)現的相關性。這是大數據時代讓人興奮的地方。但同時,相關性與因果性的辨別難度極大提升。一旦判斷失誤,會引起極大的問題。譬如說,目前阿里小貸引以為豪的信用判別模型與自動放款。假設目前信用模型相關性失效,“即通貨膨脹率長期穩(wěn)定,白酒價格和牧師收入不再強相關”,那通過現有模型篩選的主體的真實信用等級會有極大風險,后果不堪設想。以上分析純粹基于理論層面,并不指向某個具體項目,但隨著大數據技術的進步,辨別相關性與因果性的難度會越來越大,風險也會越來越高。
這個世界最讓人理解的就是它是不可理解的。這個世界最讓人難以理解的就是它又是可以理解的。大數據時代,我們需要有一顆敬畏之心。傲慢是罪。