(3)第三問:我是否清楚大數(shù)據(jù)應(yīng)用的局限?
現(xiàn)階段,大數(shù)據(jù)應(yīng)用面臨諸多挑戰(zhàn),新技術(shù)泛型下標準的大數(shù)據(jù)應(yīng)用體系尚未建立,技術(shù)復(fù)雜度和風險較高,成功案例和最佳實踐缺乏。很多企業(yè)和機構(gòu)都知道大數(shù)據(jù)潛力巨大,但卻不知如何著手,更不清楚大數(shù)據(jù)應(yīng)用有哪些局限和潛在的問題。伯克利的Jordan教授是機器學習領(lǐng)域大牛,他提出了一個很好的比喻:如果大數(shù)據(jù)給出的結(jié)果可靠性低,沒有經(jīng)過充分的驗證,就急于應(yīng)用到實際業(yè)務(wù)中,會面臨很大的風險,就好比是土木工程都沒學好就開始造橋,結(jié)果只能造出“豆腐渣工程”。所以我們要充分了解大數(shù)據(jù)技術(shù)的局限性,數(shù)據(jù)采集的不全面必然導致數(shù)據(jù)偏見,數(shù)據(jù)質(zhì)量的問題會導致GarbageInGarbageOut,我們對分析結(jié)果的不理解,或者不進行持續(xù)反饋驗證升級,就無法確認模型的準確性和穩(wěn)定性,另外《大數(shù)據(jù)時代》一書中所說的關(guān)注相關(guān)性不重視因果分析,也會導致一系列問題。數(shù)據(jù)科學發(fā)展到現(xiàn)階段,從某種程度上講還不是一個足夠嚴謹?shù)膶W科,我們有一定的概率做出準確的預(yù)測,但是使用不當或預(yù)測不準,又會造成不好的后果。顯然Jordan教授很擔心現(xiàn)在公眾對大數(shù)據(jù)技術(shù)的熱情,并不是基于對這個領(lǐng)域的深入理解,但是他堅信大數(shù)據(jù)領(lǐng)域未來會誕生很多重要的應(yīng)用,就像AlphaGo系統(tǒng)花一晚時間,自我學習幾百萬盤棋才戰(zhàn)勝李世石,對于新興技術(shù),我們不能高估它但更不能低估。鑒于此,我們需要對大數(shù)據(jù)的數(shù)據(jù)質(zhì)量及技術(shù)偏差等做更細致的考察和評估,搞清楚大數(shù)據(jù)應(yīng)用技術(shù)所面臨的限制及問題,才能走得更穩(wěn)更遠。
(4)第四問:我是否準備好打一場大數(shù)據(jù)應(yīng)用持久戰(zhàn)?
我在《大數(shù)據(jù)應(yīng)用從小做起?談微服務(wù)和大數(shù)據(jù)架構(gòu)》一文中有提到過,大數(shù)據(jù)項目如何頂天立地:立地就是要落實到一個個要解決的具體問題,基于業(yè)務(wù)和數(shù)據(jù)驅(qū)動;頂天就是要規(guī)劃得目標長遠,大數(shù)據(jù)系統(tǒng)不是搞一錘子買賣,沒有一勞永逸的做法。特別是大型企業(yè)、機構(gòu)或政府的大數(shù)據(jù)系統(tǒng),一定不能是傳統(tǒng)MIS系統(tǒng)的做法,大數(shù)據(jù)是個動態(tài)增量系統(tǒng),數(shù)據(jù)規(guī)模在變,業(yè)務(wù)在變,模型在變,參數(shù)在變,核心技術(shù)模型的迭代、優(yōu)化、持續(xù)升級及交付將是常態(tài),長期目標應(yīng)該是智能化的綜合管控,從企業(yè)的生產(chǎn)、產(chǎn)品、銷售、服務(wù)各個環(huán)節(jié)的一體化智能管控中心,政府各部門聯(lián)席的智能服務(wù)和決策中心,好比GoogleBrain,BaiduBrain,大型企事業(yè)單位和政府也需要未來的數(shù)字決策大腦。從某種程度上講,大數(shù)據(jù)的關(guān)鍵不在于具體項目,而在于數(shù)據(jù)決策中心的持續(xù)優(yōu)化與運營,大數(shù)據(jù)系統(tǒng)建設(shè)要作為一個長遠的事業(yè)來做,讓每個成員都融入大數(shù)據(jù)管理思維變革過程中。我在《說說敏捷大數(shù)據(jù)》一文中提出了“快、小、證”大數(shù)據(jù)應(yīng)用原則,對一個具體的大數(shù)據(jù)項目來講,能做到快速出原型,小分析點切入,證明有效之后再擴張的原則,就不用懼怕失敗,失敗后切換到下一個分析目標即可。由于大數(shù)據(jù)項目前期的實際投入成本遠遠大于收益,這就更需要精耕細作,打一場大數(shù)據(jù)應(yīng)用持久戰(zhàn),可以從小處著手,逐步構(gòu)建統(tǒng)觀全局的分析鏈,從而建立組織未來的大數(shù)據(jù)中心和基于大數(shù)據(jù)分析的輔助決策大腦。
(5)第五問:我是否了解大數(shù)據(jù)風險與數(shù)據(jù)偏見?
大數(shù)據(jù)時代,信息意味著權(quán)利,不同層級的信息代表不同層次的權(quán)利。這使得大數(shù)據(jù)集中之后也面臨著技術(shù)風險、成本風險、安全風險和管理風險等多個層面的問題,每個層級玩家面臨的風險各有側(cè)重,需要充分引起重視。大數(shù)據(jù)處理基于全新的技術(shù)泛型,新技術(shù)生態(tài)下技術(shù)本身的穩(wěn)定性、成熟性、擴展性等有風險;隨著數(shù)據(jù)爆炸增長需要存儲、計算包括電力等資源的持續(xù)投入,面臨成本風險(所以才有云計算的需求);面對大數(shù)據(jù)信息權(quán)的誘惑,黑客們的犯罪動機也比以往任何時候更強烈,黑客組織性更強,更加專業(yè),敏感數(shù)據(jù)入侵風險急劇增加;在數(shù)據(jù)管理方面還需要面對數(shù)據(jù)缺失(大數(shù)據(jù)的分析在于全量分析,任何一方面的數(shù)據(jù)缺失,都會讓算法產(chǎn)生偏見)、數(shù)據(jù)質(zhì)量低下、被操控的假數(shù)據(jù)(如水軍刷榜)等方面的問題。
(6)第六問:我是否理解并能貫徹大數(shù)據(jù)思維?
大數(shù)據(jù)時代,數(shù)據(jù)驅(qū)動決策是我們的必然選擇,畢竟事實勝于雄辯,數(shù)據(jù)能最大限度地說明問題,數(shù)據(jù)能讓你了解一些以前根本都不知道的事情,除了本身質(zhì)量的問題,數(shù)據(jù)不會說謊,通過大數(shù)據(jù)挖掘進行量化分析有助于精細化管理和運營,這是大數(shù)據(jù)思維的核心所在。不管是企業(yè)、機構(gòu)還是政府,在做大數(shù)據(jù)規(guī)劃或應(yīng)用之前,先問問自己,組織人員理解數(shù)據(jù)決策嗎?大數(shù)據(jù)能為他們帶來怎樣的好處?各級領(lǐng)導有沒有大數(shù)據(jù)決策基因或者這種思維變革的驅(qū)動力?所以從數(shù)據(jù)決策角度講,未來大數(shù)據(jù)思維在各行各業(yè)的滲透和如火如荼的大數(shù)據(jù)系統(tǒng)建設(shè)不亞于一場數(shù)據(jù)爆炸時代的管理變革“啟蒙運動”。這場運動由互聯(lián)網(wǎng)企業(yè)發(fā)起并逐漸繁榮,當大數(shù)據(jù)思維在傳統(tǒng)企業(yè)、機構(gòu)和政府普及并落地應(yīng)用之時,很可能就是通用人工智能時代的開始。