想一想,當(dāng)人們在百度上比以往更多地搜索“感冒”“發(fā)熱”等關(guān)鍵字時,往往意味著某地將要爆發(fā)流感,甚至還能預(yù)測是什么流感,這就是大數(shù)據(jù)的威力。第三個變化,是關(guān)注數(shù)據(jù)之間的相關(guān)性,而不是因果關(guān)系。比方說,通過挖掘天貓商城的交易數(shù)據(jù),發(fā)現(xiàn)購買德龍咖啡機(jī)的買家,會有很高的比例購買寵物糧食,那商家會不失時機(jī)地推薦你購買皇家狗糧??Х葯C(jī)與狗糧沒有因果關(guān)系,但卻有內(nèi)在的相關(guān)性。數(shù)據(jù)之間的相關(guān)性,就是大數(shù)據(jù)所蘊(yùn)含的價值,也是商家追求的商機(jī)。大數(shù)據(jù)的相關(guān)性,告訴我們在面對錯綜繁雜的大數(shù)據(jù)時,我們不需要去研究“為什么”,只要知道“是什么”就足夠了。
最后,大數(shù)據(jù)時代將催生一個數(shù)據(jù)挖掘行業(yè),出現(xiàn)一批數(shù)字科學(xué)家。簡單地說,數(shù)據(jù)挖掘就是從收集的數(shù)據(jù)中用一定的算法分析計(jì)算,得到我們所需要信息和知識的過程。傳統(tǒng)的統(tǒng)計(jì)分析是將數(shù)據(jù)按已知的類別進(jìn)行分類統(tǒng)計(jì),然后尋找有價值的數(shù)據(jù)。如果給定的分類是不合理的或是錯誤的,那統(tǒng)計(jì)出來的結(jié)果就不會產(chǎn)生最好的效果。而數(shù)據(jù)挖掘采用的是一種叫“聚類”的方法,它事先不需要人工分類,而是由算法分析數(shù)據(jù)的屬性,將數(shù)據(jù)自動聚集成“類”,使“類”間的相似性盡量小,“類”內(nèi)的相似性盡量大。比方說,保險業(yè)務(wù)涵蓋各類人群、各種職業(yè),所以設(shè)計(jì)某個險種潛在的客戶目標(biāo)群,需要對大量數(shù)據(jù)進(jìn)行挖掘,才能找出不同的客戶群和重要系數(shù),這不是事先人為設(shè)定的。要“讓數(shù)據(jù)自己說話”,這樣才能因地制宜地制訂營銷計(jì)劃,科學(xué)測算盈虧平衡,為保險企業(yè)創(chuàng)造更多利潤。
大數(shù)據(jù)的紅利
有人斷言,數(shù)據(jù)將成為人類的重要資產(chǎn),成為比石油和黃金更為重要的可重復(fù)開發(fā)使用的資源。筆者也認(rèn)同這個觀點(diǎn)。最近,媒體報道“三馬”聯(lián)手買保險新聞,這是一個攢取大數(shù)據(jù)紅利的例子。“三馬”利用阿里巴巴、騰訊和平安保險三家公司掌握大數(shù)據(jù)的優(yōu)勢,成立了網(wǎng)絡(luò)保險公司——眾安在線,這是具里程碑的互聯(lián)網(wǎng)金融創(chuàng)新,旨在利用大數(shù)據(jù)對保險消費(fèi)者進(jìn)行準(zhǔn)確定位和精準(zhǔn)營銷,瞄準(zhǔn)的主要是80后、90后的消費(fèi)者??梢?,利用大數(shù)據(jù)技術(shù)將是未來各保險公司搶奪市場非常關(guān)鍵的一環(huán)。
另一個有益的應(yīng)用將是利用大數(shù)據(jù)來防范電信詐騙。電信詐騙是當(dāng)今社會的一大頑疾,如果電信、銀行、互聯(lián)網(wǎng)、公安等各方擯棄利益糾結(jié),共享各自的大數(shù)據(jù),那么最大限度地杜絕電信詐騙是完全可能的。我們只要分析挖掘各方的大數(shù)據(jù),找出電信詐騙相關(guān)性的數(shù)據(jù)因數(shù),然后建立動態(tài)監(jiān)控模型,那么一旦相關(guān)數(shù)據(jù)出現(xiàn),公安就能根據(jù)數(shù)據(jù)鏈快速找到詐騙犯。
炒股的高手都想賺取大數(shù)據(jù)概念股的紅利。大數(shù)據(jù)的紅利在哪里?存在于大數(shù)據(jù)的擁有者、大數(shù)據(jù)技術(shù)公司和大數(shù)據(jù)價值挖掘者(也就是提供思維的數(shù)據(jù)科學(xué)家)。馬云說過:未來的世界是數(shù)據(jù)的世界。大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面,從工業(yè)、農(nóng)業(yè)、商業(yè)、科技到政府、醫(yī)療、教育、文化以及社會的其他各個領(lǐng)域,人們的生活日益被數(shù)據(jù)所改變。可以說,大數(shù)據(jù)是一種比石油、黃金還要珍貴的資源,誰掌握了足夠多的數(shù)據(jù),誰就搶占了制高點(diǎn),增強(qiáng)了競爭力,也就掌握了未來。
大數(shù)據(jù)的負(fù)面清單
大數(shù)據(jù)無疑是一個資源寶庫,它蘊(yùn)藏著巨大的價值,有待人們?nèi)ネ诰?。但是,就像硬幣有兩面一樣,大?shù)據(jù)也有其負(fù)面清單,我把它歸結(jié)為數(shù)據(jù)壟斷、侵犯隱私和數(shù)據(jù)誤導(dǎo)三個主要方面。
數(shù)據(jù)壟斷是大數(shù)據(jù)的最大隱患。我們知道,大數(shù)據(jù)技術(shù)使得人類的態(tài)度、情緒、行為等以往認(rèn)為難以測量的方面,都可以變?yōu)閿?shù)據(jù)來進(jìn)行分析和預(yù)測。一旦大數(shù)據(jù)掌握在少數(shù)企業(yè)或政府部門之間,他們?yōu)榱司S護(hù)自己的利益而拒絕信息流動,這不僅浪費(fèi)了數(shù)據(jù)資源,而且會阻礙數(shù)據(jù)創(chuàng)新,形成數(shù)據(jù)壟斷。比方說,全國的房產(chǎn)數(shù)據(jù)如果能共享,這對國家了解房產(chǎn)的整體、真實(shí)情況非常有益,也能輕易挖出貪污腐敗的嫌疑分子,但是這些數(shù)據(jù)往往掌握在地方部門之間,不能形成有效共享。
侵犯隱私是大數(shù)據(jù)的影子,只有將大數(shù)據(jù)置于法律的陽光下才能驅(qū)除。被斯諾登揭露的美國“棱鏡計(jì)劃”,就是利用訪問大數(shù)據(jù)的能力,監(jiān)控互聯(lián)網(wǎng)、電信等九大營運(yùn)商的數(shù)據(jù)庫,從中挖掘“有用信息”,達(dá)到收集情報、秘密監(jiān)控的目的。電話、電郵、文檔、視頻、照片、聊天記錄等幾乎所有的信息都暴露在“棱鏡”之下,大數(shù)據(jù)為侵犯隱私開了方便之門。如果不對大數(shù)據(jù)的獲取、訪問、共享加以法律約束,那么個人隱私將不復(fù)存在。