最近10年,沒有一個技術名詞能像大數據一樣深入社會每個階層,獲得這么廣泛的關注。大數據被討論得如此泛濫已經引起警覺,以至于2013年后,真正從事大數據行業(yè)的人盡量避免提及這三個字。本文無意對大數據概念做任何修正,評判,或專家論調。只是一些事實,和來自20年數據分析從業(yè)經驗的一些感想。
1.輝煌的十年
大數據浪潮來自三股力量推動:技術社區(qū),市場,學術圈。
2004, Google 發(fā)表了 “MapReduce: Simplified Data Processing on Large Clusters”,明確提出 MapReduce。值得注意的是,Google 并沒有發(fā)明什么,’分布執(zhí)行-中央匯總’ 是最樸素古老的并行思想,Google 這篇文章價值在于,把這種并行思想流程化、規(guī)范化了,并提出了可能的實現架構。市場迅速對此作出反應,很多軟件實現涌現出來,其中最成功的是 Hadoop, 雅虎慷慨地把它交給Apache 軟件基金會。之后數年經過無數人努力發(fā)展成了完整的工具棧。
2008年前后以安卓手機為代表的智能設備開始普及,信息采集成本前所未有得低,物聯網,大數據變現前景變得樂觀。眾包思想,自媒體概念深入人心。
2010年,無人駕駛汽車開始測試,2012年3月到2013年12月,美國先后有四個州通過了自動駕駛汽車可上路測試的法律。
2011年,IBM 機器人 Watson,參加美國智力節(jié)目Jeopardy,挑戰(zhàn)兩位人類選手Ken和Brad,獲勝。
2011年,深度學習(Deep Learning) 引爆了學界,深度神經網絡,ensemble learning, 增強學習這些高度依賴數據規(guī)模的算法得到應用。 年度大事件是 “谷歌大腦” 項目實現了機器系統(tǒng)對各種不同類型貓圖像的自動識別,正確率與人類判斷接近。
2012年11月,大型國際科研合作項目“千人基因組計劃” 二期目標完成,這一成果將有助于更廣泛地分析與疾病有關的基因變異,改善全球人類健康狀況。
2013 IBM Watson 系統(tǒng),微軟小冰,蘋果Siri 全面開花,標志著大數據進入深層價值階段。
2014 年中,善解人意會聊天的微軟機器人小冰出生。
2015 年底,Google 開源智能引擎 Tensorflow。
我只列舉了我熟悉的領域標志性事件,實際上每一年每個領域這個列表可以鋪滿一頁。
2.大數據仍然是巨人游戲
每次重要的技術革新都帶給市場一次重新洗牌的機會。這次革新體現尤為突出,值得注意的是這次變革開源社區(qū)一開始就參與進來,并且始終在技術層面上推動。這一點不同造成影響非常深刻,甚至改變了游戲規(guī)則。
第一就是傳統(tǒng)巨頭和初創(chuàng)公司之間的硬件資源壁壘變的不明顯了。Hadoop 問世之初被稱為’窮人的大數據’,因為可以低成本使用廉價硬件堆疊計算能力,給那些買不起 IBM 小型機的企業(yè),特別是創(chuàng)業(yè)公司,與巨頭競爭的機會。另外網絡和智能設備的普及讓數據的流通屬性發(fā)揮的淋漓盡致,一個熱門服務短時間就能吸收巨大的數據流量。 這其間很多創(chuàng)業(yè)公司迅速從幾人小團隊發(fā)展成獨角獸公司。
相對小公司的熱情擁抱,大公司用謹慎的步伐適應這個轉變,特別是傳統(tǒng)行業(yè)。第一懷疑開源產品的穩(wěn)定性和安全性,第二大家習慣了付費從廠商得到支持,而不是自己參與到工具維護開發(fā),甚至回饋技術社區(qū)??墒且坏┒冗^轉型期,大公司充分利用自己的渠道優(yōu)勢,資源優(yōu)勢,會想盡辦法把大數據變成巨人游戲。技術只是入場劵,在所有門檻里,這是最低的一道。巨人的游戲考驗的是裝備,耐力,人力,業(yè)務積累,那些成功的小公司的絕不是憑技術勝出。
大公司的優(yōu)勢之一是積累深厚,后勁足。大公司還有個優(yōu)勢是,有足夠體量消化大數據的能量。如果公司業(yè)務線豐富,比如阿里、騰訊、百度、平安等,同一份數據在多個業(yè)務部門都可以釋放一次能量,這給了大公司更多空間對數據精耕細作。
3.不要把數據本身當作唯一壁壘,建立自己的數據閉環(huán)
數據是非常脆弱的核心競爭力,數據本身不管多么大,無法支撐一個公司的長久運營。脆弱的原因是收集成本與復制成本極度不對等,特別是當前監(jiān)管落后市場很多,一家電商網站一年的交易情況一個盤陣就可以塞滿;在線地圖廠商走遍每條街道手工采集的POI數據一個星期就被爬蟲收入囊中。公司在制定數據戰(zhàn)略的時候要認真考慮這種不對等,多層布局要把數據資產持久化運營和精細化運營。這方面的例子很多,實際上回顧 2010-2015 的互聯網的圈地狂潮,大伙兒都在做的兩件事就是:搶占入口,自建閉環(huán)。為了搶占入口各種地推燒錢,明爭暗斗無需多言。入口搶到了閉環(huán)的建立更困難。典型的數據閉環(huán)是:數據在消費端生成,通過交易、服務渠道完成采集,經過清洗匯總進入倉庫,加工分析應用到業(yè)務流程,市場反饋再通過消費端回來。這個閉環(huán)對業(yè)務流程的增量改進意義重大。