2016年7月17號在北大舉行的第五屆中國大數據應用論壇上,中國新一代IT產業(yè)推進聯(lián)盟技術分委會秘書長魯四海做了題為《大數據技術及行業(yè)應用》的分享。他分享內容分為三個部分:第一,行業(yè)的趨勢、技術發(fā)展是什么樣的;第二大數據在傳統(tǒng)行業(yè)落地的困難,大數據要用起來最終還是落在傳統(tǒng)行業(yè),因為IT技術的發(fā)展不能自娛自樂;第三,傳統(tǒng)行業(yè)如何落地大數據。
大數據產業(yè)發(fā)展趨勢
首先來看,現(xiàn)在的大數據產業(yè)正在發(fā)生著哪些變化。第一,首席數據官開始崛起。第二,可視化是推動大數據普及的一個重要的手段。大數據的真實用戶,我們認為是業(yè)務不應該是IT人員。第三,大數據還有一個趨勢就是智能化嵌入,一個是終端的嵌入,一個是在服務端的嵌入。第四是機器學習迎來上揚的趨勢,它已經是未來數據準備和預測分析的必要工作。第五,開源應用會持續(xù)加速。第六,數據服務逐漸形成發(fā)展規(guī)模,這個主要有三個原因:一是數據這個事我們沒有必要做一些重復的工作;二是數據服務促進共享。三是擁有數據的企業(yè)找到了一種創(chuàng)收的方式。第七,算法市場正在興起,數據要去解決問題,中間需要一個算法模型來支撐。第八,互聯(lián)網、金融、健康保持熱度,智慧城市、企業(yè)數據化、產業(yè)互聯(lián)網將成為新的增長點。
從前面的趨勢我們也可以看出,傳統(tǒng)行業(yè)將是大數據的主戰(zhàn)場。數據對傳統(tǒng)企業(yè)的巨大價值不用贅述,具體體現(xiàn)在四個方向:一是在決策模式上,在數據這個時代,以從流程為中心轉向數據為中心;二是運營模式上,不再是以產品和服務為中心,轉向以用戶為中心;三是協(xié)作模式上面,原來是以供應鏈為基礎的,現(xiàn)在是生態(tài)鏈為中心。四是企業(yè)組織模式上,原來是以層級為中心,現(xiàn)在是以員工為中心。
傳統(tǒng)行業(yè)落地大數據的挑戰(zhàn)
但是傳統(tǒng)行業(yè)落地大數據也是有很多挑戰(zhàn)的。比如我們之前在做咨詢過程當中就遇到過這樣的情況。有的IT項目交付的時候被推倒重來,大數據項目也可能出現(xiàn)這種情況。一個是需求之前是不準確的,二是我們這個系統(tǒng)建設速度跟不上需求的變化。?
都說大數據的是驅動創(chuàng)新的最佳方式,其實創(chuàng)新還是有蠻多坑的。比如說,這兩年大家都在講小米的參與感。都去學人家微博微信的營銷,然后以對人家的微博微信進行數據分,然后套到自己的產品上,結果一點成效都沒有。但人家走量最多的紅米首發(fā)選擇了QQ空間,也得到了QQ空間的大力支持。依據數據創(chuàng)新最大的風險在于,認識片面性和數據片性。
有的企業(yè)會通過投資收購方式去發(fā)展公司業(yè)務,投資者們達成明確而廣泛的共識,差不多很多時候都是錯的,因為大家在追逐熱點,熱點就有可能導致說大家都過獨木橋。其實很多時候是在做重復性的研究,這個產業(yè)我們需要協(xié)作。
其實數據是很核心的一塊,我們做大數據首先解決數據的問題。數據分成兩塊來看,分為內部和外部。內部的數據,一個是現(xiàn)在還有沒有數據。我們剛才聽到了去哪兒網可以通過一些技術手段,收集他的數據。那么一般的組織是不是能夠達到呢?再就是數據質量如何。數據的質量就要分成兩塊,數據的有用性和數據的可用性。?
談完數據就討論技術,目前我們問三個問題,你的技術路線,走開源的還是閉源的。第二是私有部署還是使用SaaS的工具去解決你的問題。第三這點更細節(jié),走Hadoop還是走MPP這條線,這跟企業(yè)數據特點是有很大關系的,比如說你的數據以結構化為主的,那MPP的模式就更適合你。
技術真的只是工具,數據其實是大數據分析過程當中的材料。只有材料、只有工具這能做出產品么?不行的,還有一個東西,它需要配方、需要生產的方法,這個就是算法模型。但是算法模型有幾個問題一是對于法的人要求非常高;需要做大量的訓練;你開發(fā)出來一個模型之后,應用效果也需要檢驗。
團隊,至少有三個方向,首先是業(yè)務專家,他解決的問題是數據的可用性。然后就是IT專家,那樣解決怎么存數據、獲數據、管理數據。還有就是統(tǒng)計專家,他去開發(fā)一些模型。目前是這幾種比較存在形式。還有一種是技術導向型的,再一個是以應用、業(yè)務為導向的。