本文嘗試從大數(shù)據(jù)產業(yè)鏈的各環(huán)節(jié)入手,談談當前制約其發(fā)展主要因素。
眾所周知,大數(shù)據(jù)按照處理流程可以分為三步:
大數(shù)據(jù)采集和清洗 大數(shù)據(jù)存儲和分析 大數(shù)據(jù)展現(xiàn)和應用
從以上這三個方面,我想談談制約大數(shù)據(jù)發(fā)展的幾個核心問題。
一、大數(shù)據(jù)采集和清洗
1.1 數(shù)據(jù)法規(guī):用戶隱私如何保護、商業(yè)規(guī)則如何制定、法律規(guī)范如何制定等等一系列法律法規(guī)都大大滯后于大數(shù)據(jù)科學的發(fā)展速度。由于技術EXE所限,紙上談兵TXT成為常態(tài)。當前數(shù)據(jù)法律法規(guī)未明,采集方式八仙過海,預計未來很多大數(shù)據(jù)業(yè)務都將會繼續(xù)游走在灰色地帶,只有當商業(yè)運作初具規(guī)模并開始對消費者和企業(yè)產生影響之后,相關的法律法規(guī)才會被迫加速制定出來。(法律大數(shù)據(jù)研究與應用)
1.2 數(shù)據(jù)質量:由于大數(shù)據(jù)產業(yè)剛剛起步不久,目前在具體的某一領域或行業(yè)內,尚未有成型的數(shù)據(jù)采集、加工、分析和應用鏈條,大量數(shù)據(jù)源未被激活,包括政府在內的很多權威數(shù)據(jù)機構,普遍存在數(shù)據(jù)缺失、噪音多各方面的問題。舉個栗子,如果一個電商網站銷售額的20%是與推薦系統(tǒng)相關的時候(亞馬遜是35%Was Amazon’s recommendation engine crucial to the company’s success?),投入和產出是不成比例的,這也是很多小微企業(yè)難以為繼的原因,技術上每1%的進步都需要100%的汗水和努力,1%的誤差都會極大地影響企業(yè)的市場份額。
1.3 數(shù)據(jù)人才:去年我參加了「2016年中國大數(shù)據(jù)產業(yè)峰會」,當時清華大學的一名教授預言:
未來 3 年,中國需要 大約 180萬大數(shù)據(jù)人才,但目前只有約 30萬人。
作為國內TOP2的知名學府Tsinghua當然不會落后,2014年就開始了動作( 清華大學培養(yǎng)跨學科交叉融合數(shù)據(jù)科學研究生),雖有些跟風的嫌疑,但至少是順應發(fā)展。由于數(shù)據(jù)人才稀缺,大多數(shù)數(shù)據(jù)企業(yè)沒有數(shù)據(jù)價值外化、將數(shù)據(jù)變現(xiàn)的有效路徑,只能躺在金礦上睡覺。而在實際項目實施過程中,數(shù)據(jù)專家們不得不花費大量時間在數(shù)據(jù)清洗上,對原本就稀缺的數(shù)據(jù)人才其實是一種資源浪費。另一方面,數(shù)據(jù)專家們不但需要解讀大數(shù)據(jù),同時還需深諳某行業(yè)發(fā)展各個要素之間的關聯(lián),甚至包括策劃、管理、執(zhí)行等許多具體要素,這里就不贅述了。
圖 1.1 清華大學互聯(lián)網大數(shù)據(jù)研究中心)
二、大數(shù)據(jù)存儲和分析
2.1 數(shù)據(jù)隱私:理論上,用戶和企業(yè)的原始數(shù)據(jù)沉淀在數(shù)據(jù)平臺上(如BAT),數(shù)據(jù)平臺在未獲授權的情況下不能提供給第三方,但實際情況是用戶對原始數(shù)據(jù)的占有獲取權及公開權基本取決于用戶與平臺達成的協(xié)議「用戶須知」,加上互聯(lián)網本身的開放性和某些企業(yè)故意作惡,用戶基本無法捍衛(wèi)自己的數(shù)據(jù)財產所有權。
(圖 2.1 某網站的免責聲明)
2.2 數(shù)據(jù)安全:棱鏡計劃(PRISM)曝光,我們知道美國政府已可以從電郵、短信、視頻、照片、存儲數(shù)據(jù)、甚至語音聊天等全方位對人進行監(jiān)控,大數(shù)據(jù)挖掘讓互聯(lián)網世界已無死角可言。這同時證明黑客攻擊方的能力和范圍已無限升級。中國最頂尖白帽團隊Keen的創(chuàng)始人王琦說:
大數(shù)據(jù)時代,數(shù)據(jù)就是錢。
數(shù)據(jù)黑客可以從互聯(lián)網中盜取各種數(shù)據(jù),互聯(lián)網地下社工庫(互聯(lián)網社工庫的傳說,這個是真的存在嗎?)就是最好的證明。
三、大數(shù)據(jù)展現(xiàn)和應用
3.1 數(shù)據(jù)展現(xiàn):眾所周知,數(shù)據(jù)的價值無法估量,但只有在被展現(xiàn)時才能發(fā)揮出來。高維數(shù)據(jù)可視化目前仍是一個棘手的問題,比如如何判斷當前降維算法是否是合適?如何選擇合適的數(shù)據(jù)展現(xiàn)方法?仍然拿推薦系統(tǒng)來舉栗子,推薦的準確率、覆蓋率、多樣性、驚喜度等應該如何取舍才能提高用戶滿意度?這些都需要數(shù)據(jù)分析師對業(yè)務和技術都有相當程度的了解,因為數(shù)據(jù)科學本身是一個交叉學科,涉及統(tǒng)計學、計算機科學、商業(yè)領域經驗等多種知識。
3.2 數(shù)據(jù)產業(yè)鏈:如果沒有對某個行業(yè)整體產業(yè)鏈的宏觀把握,單個企業(yè)僅僅基于自己掌握的獨立數(shù)據(jù),就無法建立產業(yè)鏈各個環(huán)節(jié)數(shù)據(jù)之間的關系,也就無法對業(yè)務發(fā)展和應用做出精準的判斷(通俗說就是難以將數(shù)據(jù)變現(xiàn))。數(shù)據(jù)分析師如何將大數(shù)據(jù)層面上的關聯(lián)具象到行業(yè)實踐中?如何如何制定可執(zhí)行方案應用數(shù)據(jù)挖掘的結論?當前的現(xiàn)時情況需要處于大數(shù)據(jù)生態(tài)圈中的企業(yè)需要進行合作,方能實現(xiàn)共贏。