接下來的一波大公司(稱之為傳統(tǒng)技術(shù)采用周期的 “早期多數(shù)使用者”)大多數(shù)時候?qū)Υ髷?shù)據(jù)技術(shù)是持觀望態(tài)度的,對于整個大數(shù)據(jù)方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指望某個大型供應(yīng)商(比如 IBM)會提供一個一站式的解決方案,不過現(xiàn)在看來這種情況近期內(nèi)并不會出現(xiàn)。他們看待這個大數(shù)據(jù)版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來并沒有什么不同的初創(chuàng)企業(yè)合作,然后修補(bǔ)出各種解決方案。
生態(tài)體系正在成熟
與此同時,在初創(chuàng)企業(yè) / 供應(yīng)商這一塊,整個第一波的大數(shù)據(jù)公司(2009 至 2013年 間成立的那批)現(xiàn)在已經(jīng)融了數(shù)輪的資金,企業(yè)規(guī)模已經(jīng)得到了擴(kuò)大,并且從早期部署的成功或失敗中學(xué)到了東西,現(xiàn)在他們已經(jīng)能夠提供更成熟的、經(jīng)受過考驗的產(chǎn)品了。少數(shù)一些已經(jīng)成為了上市公司(包括 2015年 上市的 HortonWorks 和 New Relic),而有的(比如 Cloudera、MongoDB 等)融資已經(jīng)達(dá)上億美元了。
這個領(lǐng)域的VC融資活動仍然很有生氣,2016年 的前幾周我們見證好幾輪相當(dāng)可觀的后期階段大數(shù)據(jù)融資事件:DataDog(9400 萬美元),BloomReach(5600 萬美元),Qubole(3000 萬美元),PlaceIQ(2500 萬美元)等。2015年 大數(shù)據(jù)初創(chuàng)企業(yè)拿到的融資額達(dá)到了 66.4 億美元,占整個技術(shù) VC 總?cè)谫Y額額 11%。
并購活動則開展得中規(guī)中矩(自從上一版大數(shù)據(jù)版圖發(fā)布以來完成了 34 項并購,具體可參見附注)
隨著該領(lǐng)域的創(chuàng)業(yè)活動持續(xù)進(jìn)行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的技術(shù)巨頭(尤其是 Amazon、Google、IBM),使得這個領(lǐng)域的公司日益增多,最后匯成了這幅 2016 版的大數(shù)據(jù)版圖。
顯然這張圖已經(jīng)很擠了,而且還有很多都沒辦法列進(jìn)去(關(guān)于我們的方法論可以參見附注)
在基本趨勢方面,行動開始慢慢從左轉(zhuǎn)到右(即創(chuàng)新、推出新產(chǎn)品和新公司),從基礎(chǔ)設(shè)施層(開發(fā)者 / 工程師的世界)轉(zhuǎn)移到分析層(數(shù)據(jù)科學(xué)家和分析師的世界)乃至應(yīng)用層(商業(yè)用戶和消費(fèi)者的世界),“大數(shù)據(jù)原生應(yīng)用” 已經(jīng)在迅速冒頭—這多少符合了我們原先的一些預(yù)期。
大數(shù)據(jù)基礎(chǔ)設(shè)施:仍有大量創(chuàng)新
Google 由 Cutting 和 MikeCafarella 主導(dǎo)的關(guān)于 MapReduce 和 BigTable 的論文(Hadoop 的基礎(chǔ))問世已有 10年 了,在這段時間里,大數(shù)據(jù)的基礎(chǔ)設(shè)施層已經(jīng)逐漸成熟,一些關(guān)鍵問題也得到了解決。
但是,基礎(chǔ)設(shè)施領(lǐng)域的創(chuàng)新仍然富有活力,這很大程度上是得益于可觀的開源活動規(guī)模。
2015年 無疑是 Apache Spark 之年。自我們發(fā)布上一版大數(shù)據(jù)版圖以來,這個利用了內(nèi)存處理的開源框架就開始引發(fā)眾多討論。自那以后,Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護(hù),讓它獲得了可觀的信任度。Spark 的出現(xiàn)是很有意義的,因為它解決了一些導(dǎo)致 Hadoop 采用放緩的關(guān)鍵問題:Spark 速度變快了很多(基準(zhǔn)測試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更容易編程,并且跟機(jī)器學(xué)習(xí)能夠很好地搭配。
除了 Spark 以外,還出現(xiàn)了其他的一些令人興奮的框架,比如 Flink、Ignite、Samza、Kudu 等,這些框架的發(fā)展勢頭也很好。一些思想領(lǐng)袖認(rèn)為,Mesos(數(shù)據(jù)中心資源管理系統(tǒng),把數(shù)據(jù)中心當(dāng)作一臺大計算資源池進(jìn)行編程)的出現(xiàn)也刺激了對 Hadoop 的需求。
即便在數(shù)據(jù)庫的世界里,新興的玩家似乎也越來越多。多到市場已經(jīng)難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數(shù)據(jù)庫(如 Neo4j )的成熟,到專門數(shù)據(jù)庫的推出(如統(tǒng)計時序數(shù)據(jù)庫 InfluxDB),乃至于 CockroachDB 的出現(xiàn)(受 Google Spanner 靈感啟發(fā)誕生的融合了 SQL 與 NoSQL 長處的新型數(shù)據(jù)庫)。數(shù)據(jù)倉庫也在演變(如云數(shù)據(jù)倉庫 Snowflake)。
大數(shù)據(jù)分析:現(xiàn)在跟AI結(jié)合了
大數(shù)據(jù)分析過去幾個月出現(xiàn)的一股趨勢是,越來越關(guān)注利用人工智能(形式和風(fēng)格各異)來幫助分析大規(guī)模的數(shù)據(jù),從而獲得預(yù)測性的洞察。
其實最近出現(xiàn)復(fù)興的 AI 很大程度上算是大數(shù)據(jù)的產(chǎn)物。深度學(xué)習(xí)(最近受到關(guān)注最多的 AI 領(lǐng)域)背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應(yīng)用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。AI 與大數(shù)據(jù)之間的關(guān)系如此緊密,以至于業(yè)界專家現(xiàn)在認(rèn)為 AI 已經(jīng)令人懊惱地 “與大數(shù)據(jù)陷入了熱戀當(dāng)中”。
不過反過來,AI 現(xiàn)在也在幫助大數(shù)據(jù)實現(xiàn)后者的承諾。分析對 AI/ 機(jī)器學(xué)習(xí)越來越多的關(guān)注也符合大數(shù)據(jù)下一步演進(jìn)的趨勢:現(xiàn)在數(shù)據(jù)我都有了,但究竟從中能得到什么樣的洞察呢?當(dāng)然,這件事情可以讓數(shù)據(jù)科學(xué)家來解決,從一開始他們的角色就是實現(xiàn)機(jī)器學(xué)習(xí),否則的話就得想出模型來發(fā)現(xiàn)數(shù)據(jù)的意義。但是機(jī)器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學(xué)家的作用—只需要倒騰數(shù)據(jù),新興的產(chǎn)品就能從中提煉出數(shù)學(xué)公式(如 Context Relevant)或者自動建立和推薦最有可能返回最佳結(jié)果的數(shù)據(jù)科學(xué)模型(如 DataRobot)。一批新的 AI 公司提供的產(chǎn)品能夠自動識別像圖像這樣的復(fù)雜實體(如 Clarifai、Dextro),或者提供強(qiáng)大的預(yù)測性分析(如 HyperScience)。