科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復(fù)雜的商品(電商),到海量曲庫中的樂曲;從婚戀網(wǎng)站的男女朋友,到交通管理的信號燈。
基于人工智能下的大數(shù)據(jù),就是可以使人們“變懶”的一個手段。 基于你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結(jié)果,推薦給你 。這就是大數(shù)據(jù),她是你的貼心管家,或者說是最懂你的朋友。
一個最經(jīng)典的案例是沃爾瑪曾經(jīng)做過的“啤酒”和“尿布”調(diào)研:沃爾瑪在研究中發(fā)現(xiàn),一類顧客經(jīng)常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關(guān)聯(lián)的兩個品類的商品,從個人經(jīng)驗上來看,根本想不到二者的聯(lián)系。后來發(fā)現(xiàn),這是一類社會現(xiàn)象所導(dǎo)致的。美國有很多年輕夫婦,尿布用完后,女主人在家?guī)Ш⒆樱兄魅司腿コ匈I尿布。買完尿布之后,男主人通常會順帶著買些啤酒。
上述例子說明,數(shù)據(jù)經(jīng)??梢宰屇惆l(fā)現(xiàn)看似不合理不合邏輯但卻存在,并且經(jīng)常發(fā)生的現(xiàn)象。
再舉個例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經(jīng)不需要預(yù)測了。但如果根據(jù)歷史交通數(shù)據(jù),再經(jīng)過數(shù)學模型,計算出一個全北京最佳的交通信號燈管理系統(tǒng),這就屬于大數(shù)據(jù)的范疇了。
圖2、出租車每天的分布圖
這也是我眼中大數(shù)據(jù)主要與普通的數(shù)據(jù)統(tǒng)計分析最大的不同:數(shù)據(jù)統(tǒng)計可以幫助你發(fā)現(xiàn)疾病,但大數(shù)據(jù)可以不但幫助你發(fā)現(xiàn),且?guī)椭阒委熂膊 ?/p>
大數(shù)據(jù)絕不是“噱頭“,我們在幫助某運營商閱讀基地的閱讀推薦項目中,各項指標均得到大幅提升。而這個提升不是百分之幾十,而是數(shù)倍的提升!(用戶人均流量提升了4倍,沉默用戶激活能力提升了6.5倍)這才是大數(shù)據(jù)的魅力。
大數(shù)據(jù)不是萬能的
大數(shù)據(jù)顯然不是萬能的。正因為如此,她才真實。大數(shù)據(jù)在有些領(lǐng)域由于種種原因,所帶來的價值并不如預(yù)期的那么高。導(dǎo)致這種現(xiàn)象最主要的問題有兩個,一個是由于數(shù)據(jù)本身的質(zhì)量或者數(shù)量不夠;另一個是算法不合適。
不要以為是海量數(shù)據(jù)就一定會有價值,在過往的工作中,我們經(jīng)常發(fā)現(xiàn)來自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無用的。只有10%-20%的數(shù)據(jù)才會產(chǎn)生一定的價值。這就又讓我想到Marry Meeker打的那個比喻,“大數(shù)據(jù)的工作就像在一堆稻草中尋找一根針”。
何況,大多數(shù)領(lǐng)域本身業(yè)務(wù)屬于早期,所擁有的數(shù)據(jù)非常貧乏。冷啟動、稀疏性是大數(shù)據(jù)在諸多領(lǐng)域面臨的挑戰(zhàn)。
另一方面,對于不同領(lǐng)域,不同項目,沒有放之四海而皆準的算法,必須要根據(jù)具體問題具體分析解決。在實際的工作中發(fā)現(xiàn),不只是不同的領(lǐng)域(如文章推薦與商品推薦),甚至同一領(lǐng)域的不同單元(同屬電商但不同類電商,如母嬰類和服裝類或者奢侈品類)也有所不同。
數(shù)據(jù)的交叉利用
上面提到的兩個大數(shù)據(jù)在實際應(yīng)用中面臨的最大問題,即冷啟動時數(shù)據(jù)的匱乏和業(yè)務(wù)早期數(shù)據(jù)的稀疏性問題,并不是無藥可救。業(yè)界一直討論的數(shù)據(jù)打通,就是解決這兩問題的出路。
對于一些新興領(lǐng)域,缺乏數(shù)據(jù)是必然的,而另一方面,正由于缺乏數(shù)據(jù)的支持,所以才更需要有強大決策支持的系統(tǒng)對其業(yè)務(wù)做指導(dǎo)和支撐,以實現(xiàn)少走彎路,利益最大化的目的。
移動互聯(lián)網(wǎng)領(lǐng)域的項目,尤為代表。雖然在過去的兩三年里,移動互聯(lián)網(wǎng)得到了高速的發(fā)展,但畢竟在各個方面的積累,都無法與互聯(lián)網(wǎng)相比。尤其在人們形成穩(wěn)定的使用習慣之前,數(shù)據(jù)還不具備更多的價值和意義。
但如果能把互聯(lián)網(wǎng)的數(shù)據(jù)與移動互聯(lián)網(wǎng)數(shù)據(jù)打通,那么我們就掌握了這個人的喜好等多方面信息,從而為移動互聯(lián)網(wǎng)業(yè)務(wù)做出更有效的指導(dǎo)和幫助。
圖3、互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)數(shù)據(jù)的打通
當然,數(shù)據(jù)的打通絕不僅限于互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)。每個數(shù)據(jù)源的數(shù)據(jù)往往刻畫了一個人的不同方面。正如巴拉巴西教授在《爆發(fā)》一書中描繪的那樣, 如果數(shù)據(jù)充分,人類93%的行為是可以預(yù)知的,是有規(guī)律的 。