現(xiàn)階段大數(shù)據(jù)領(lǐng)域注重?cái)?shù)據(jù)采集、數(shù)據(jù)存儲、基礎(chǔ)計(jì)算和可視化等層面,唯獨(dú)對數(shù)據(jù)挖掘建模和決策支持這兩個(gè)硬骨頭沒有展開深入研究和對接,這是大數(shù)據(jù)難以落地的根本原因。我們大多數(shù)人決策其實(shí)是靠感覺、個(gè)人經(jīng)驗(yàn)或別人建議,少部分人會親自對報(bào)表等小數(shù)據(jù)進(jìn)行客觀數(shù)據(jù)分析。
而大數(shù)據(jù)為我們提供了一種更加可靠的決策支持,畢竟數(shù)據(jù)不會說假話。大數(shù)據(jù)本身不產(chǎn)生價(jià)值,大數(shù)據(jù)的根本用途是利用大數(shù)據(jù)挖掘分析對我們的決策提供規(guī)律、知識和經(jīng)驗(yàn)等科學(xué)依據(jù),客觀上減少面對未來決策的不確定性。所以,以業(yè)務(wù)決策支持為分析目標(biāo),大數(shù)據(jù)不靠大,小數(shù)據(jù)也一樣有大價(jià)值。為什么大數(shù)據(jù)的價(jià)值需要我們自己去定義呢?因?yàn)閷τ谖磥怼τ谖粗I(lǐng)域,我們每個(gè)人或組織面臨的不確定性問題是不一樣的,有的偏個(gè)體(如疾病診斷,犯罪預(yù)測),有的偏大眾(如廣告營銷、客戶細(xì)分),有的偏微觀(如基因序列,個(gè)性化教育),有的偏宏觀(環(huán)境監(jiān)測、天文數(shù)據(jù)處理),有的關(guān)注資源優(yōu)化配置(如供需匹配,出行服務(wù)),有的關(guān)注宏觀決策(如政府資產(chǎn)分析、綜合管控)…可以說大數(shù)據(jù)分析需求無處不在,而又大不相同。這就需要從自身實(shí)際需求和數(shù)據(jù)、技術(shù)現(xiàn)狀出發(fā),自行設(shè)定大數(shù)據(jù)分析的價(jià)值和應(yīng)用目標(biāo),生搬硬套互聯(lián)網(wǎng)公司那套做法,不可取。
大數(shù)據(jù)陷阱:
應(yīng)用前先問自己幾個(gè)問題
綜上所述,大數(shù)據(jù)無疑是好東西,很多組織機(jī)構(gòu)也正在規(guī)劃或建設(shè)大數(shù)據(jù)平臺,很多創(chuàng)業(yè)玩家也正在計(jì)劃或進(jìn)行大數(shù)據(jù)領(lǐng)域的技術(shù)服務(wù)或產(chǎn)品研發(fā)。但大數(shù)據(jù)領(lǐng)域面臨的陷阱也是不少,光看大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能、深度學(xué)習(xí)、分布式計(jì)算等目不暇接的技術(shù)和概念,就夠眼花繚亂了,要真正理解各種技術(shù)的原理及相互聯(lián)系就更難,如何才能不畏浮云遮望眼,走出一條扎實(shí)的大數(shù)據(jù)應(yīng)用落地之路。我以個(gè)人粗淺的理解提幾個(gè)問題供大家參考:
(1)第一問:我屬于什么級別的玩家?
大數(shù)據(jù)的核心優(yōu)勢在于規(guī)模效應(yīng),你的業(yè)務(wù)量越大、業(yè)務(wù)覆蓋性越廣、數(shù)據(jù)量越大,大數(shù)據(jù)投入的成本就越容易被攤薄,而長遠(yuǎn)獲取的大數(shù)據(jù)應(yīng)用價(jià)值就越巨大。所以,我一直認(rèn)為政府才是最適合大數(shù)據(jù)應(yīng)用的超級玩家,這也是為什么大數(shù)據(jù)獨(dú)角獸企業(yè)Palantir的產(chǎn)品只有政府定制版(FBI,CIA專用)和金融定制版(華爾街金融巨頭專用)的原因!一般企業(yè)或個(gè)人根本玩不起大數(shù)據(jù),小的個(gè)體只能像《黑客帝國》的孵化人為Matirx系統(tǒng)提供生物電池一樣,為超級玩家貢獻(xiàn)數(shù)據(jù)和技術(shù)還差不多。所以做大數(shù)據(jù)之前,先問問自己,我屬于什么級別的玩家。我有特定領(lǐng)域的海量數(shù)據(jù)嗎?有數(shù)據(jù)科學(xué)能力相關(guān)的核心技術(shù)(應(yīng)用建模)嗎?有機(jī)會成為BAT嗎?或者降一級有機(jī)會成為Uber、滴滴、摩拜嗎?研發(fā)的產(chǎn)品能否等到大規(guī)模應(yīng)用之時(shí)?提供的技術(shù)是否符合客戶的業(yè)務(wù)需求?因?yàn)橐话銇碇v,大數(shù)據(jù)的初始投入成本是很高的,自我定位很關(guān)鍵。當(dāng)然成不了甲方還是可以做乙方,成不了BAT還是有機(jī)會被BAT收購的,另外采用敏捷大數(shù)據(jù)方法論,也有低成本的玩法。
(2)第二問:我是搞技術(shù)驅(qū)動、業(yè)務(wù)驅(qū)動還是數(shù)據(jù)驅(qū)動?
當(dāng)前不少公司的大數(shù)據(jù)產(chǎn)品和服務(wù)不接地氣,從開始規(guī)劃上就有一定問題。很多公司都號稱自己有云計(jì)算和大數(shù)據(jù)方面的產(chǎn)品和服務(wù),覆蓋面從Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商業(yè)智能、人工智能、深度學(xué)習(xí)等等方面,偌大一片浮云,客觀上促進(jìn)了大數(shù)據(jù)領(lǐng)域的技術(shù)高速發(fā)展,可惜最終少有幾家能活到賺錢。首先,大數(shù)據(jù)領(lǐng)域,沒有幾把刷子是很難玩技術(shù)驅(qū)動的,像Hadoop,Spark這些基礎(chǔ)框架,AlphaGo系統(tǒng)、Nvidia的核心產(chǎn)品等,后面都有一幫名校博士、教授等技術(shù)大牛的身影在支持;其次,業(yè)務(wù)驅(qū)動最靠譜,但要有足夠的創(chuàng)新和資本支持,最近幾年出現(xiàn)的Uber、滴滴、摩拜、Airbnb、23andMe、貨車幫等創(chuàng)新公司,就是典型的業(yè)務(wù)驅(qū)動型大數(shù)據(jù)企業(yè),對傳統(tǒng)社會和商業(yè)的沖擊也是顛覆性的,如果能有極好的創(chuàng)意和資本支持,走這條路發(fā)展?jié)摿薮?;而政府和大型壟斷國企擁有真正的大?shù)據(jù)金礦,有數(shù)據(jù)+業(yè)務(wù)驅(qū)動的條件,但由于自身管理體制原因或引入的技術(shù)實(shí)力太弱,大數(shù)據(jù)的價(jià)值遠(yuǎn)遠(yuǎn)沒有被挖掘出來,當(dāng)然這也是大機(jī)會,我們的國安部門也需要中國版的Palantir。所以大數(shù)據(jù)應(yīng)用要接地氣,結(jié)合自身實(shí)力,問問自己搞技術(shù)驅(qū)動、業(yè)務(wù)驅(qū)動還是數(shù)據(jù)驅(qū)動,是最需要回答的問題。