雖然2016年全年,只有Talend這一家大數(shù)據(jù)公司成功上市,但2017年截至目前這一領(lǐng)域內(nèi)滿是IPO良機(jī)。Mulesoft和Alteryx成功上市并且表現(xiàn)還不錯(cuò),這兩家的發(fā)行價(jià)都超過了IPO價(jià)格。在撰寫本文時(shí),Cloudera也即將上市,該公司最新預(yù)估價(jià)(41億美元)與營(yíng)收(2016年2.61億美元)之間的空缺對(duì)于“獨(dú)角獸”的估價(jià)現(xiàn)象將造成不小的考驗(yàn)。此外MapR以及位置智能公司Yext也正在準(zhǔn)備上市。
接下來會(huì)是誰?多年來,Palantir作為業(yè)內(nèi)最低調(diào)的公司之一,已經(jīng)表達(dá)出想要公開上市的意圖??紤]到Palantir的最新預(yù)估價(jià)為200億美元,如果其公開估價(jià)能夠接近這一數(shù)字,將會(huì)成為IPO領(lǐng)域的一枚重磅炸彈。
打響云端戰(zhàn)役
失敗和收購(gòu)活動(dòng)也許不會(huì)讓這個(gè)行業(yè)立刻得到鞏固,但“功能合并”的情況日漸普遍,尤其是在云計(jì)算領(lǐng)域。該領(lǐng)域內(nèi)一些重量級(jí)選手正在逐漸構(gòu)建整合式的“大數(shù)據(jù)+人工智能”服務(wù),并且吸引了不少用戶,這些服務(wù)或者使用了自行開發(fā)的產(chǎn)品,或通過流行的開源計(jì)算引擎自行實(shí)現(xiàn),這種服務(wù)距離很多買家所期待的“一站式購(gòu)買”越來越近了。
尤其是Amazon WebServices還在繼續(xù)快速發(fā)布不同類型的產(chǎn)品,讓人獲得了深刻的印象。目前該公司已經(jīng)圍繞大數(shù)據(jù)和人工智能技術(shù)提供了幾乎所有產(chǎn)品,包括分析框架、實(shí)時(shí)分析、數(shù)據(jù)庫(kù)(NoSQL、圖形等)、商業(yè)智能,以及日益完善的人工智能能力,并且在深度學(xué)習(xí)方面頗有建樹。按照這樣的速度,AWS很快將具備我們的大數(shù)據(jù)全景中所涉及的幾乎所有基礎(chǔ)架構(gòu)和分析產(chǎn)品。
雖然Google涉足云計(jì)算的時(shí)間較晚,但他們正在圍繞大數(shù)據(jù)積極主動(dòng)地構(gòu)建一系列產(chǎn)品(BigQuery、Dataflow、Dataproc、Datalab、Dataprep等),并且已將人工智能視作超越競(jìng)爭(zhēng)對(duì)手的方法之一。過去一年來,Google在人工智能方面公布了很多消息,例如:一個(gè)新的轉(zhuǎn)換引擎,雇傭了兩名出色的人工智能專家Fei-FeiLi和JiaLi來領(lǐng)導(dǎo)新成立的Cloud AIand Machine Learning部門,針對(duì)視頻識(shí)別提供的全新機(jī)器學(xué)習(xí)API,并且收購(gòu)了數(shù)據(jù)科學(xué)家社區(qū)Kaggle。
更大規(guī)模的企業(yè)級(jí)IT供應(yīng)商–尤其是Microsoft、IBM、SAP、Oracle以及Salesforce–也在努力推出大數(shù)據(jù)(以及人工智能)產(chǎn)品,這些產(chǎn)品都支持云端(最引人注目的是Microsoft)和本地部署。除了通過自行開發(fā),以及收購(gòu)而來的技術(shù)構(gòu)建這些產(chǎn)品,他們的合作意愿也在逐漸加強(qiáng),尤其是與“有數(shù)據(jù)的”公司(數(shù)據(jù)倉(cāng)儲(chǔ))和“有人工智能的”公司進(jìn)行合作。例如IBM和Salesforce以及SAP與Google的合作都是其中的典型。
按照企業(yè)IT行業(yè)的標(biāo)準(zhǔn)來說,云供應(yīng)商的規(guī)模依然不算大,但這些公司的野心(包括在企業(yè)技術(shù)棧中,將自己的地位從IaaS層面上升至應(yīng)用程序?qū)用娴拿鞔_意圖)和穩(wěn)扎穩(wěn)打?qū)⑵髽I(yè)數(shù)據(jù)遷往云端的做法相結(jié)合,意味著與傳統(tǒng)IT供應(yīng)商的全面戰(zhàn)爭(zhēng)已然打響,大家在爭(zhēng)奪龐大的企業(yè)級(jí)技術(shù)市場(chǎng)的控制權(quán),而大數(shù)據(jù)和人工智能將會(huì)是核心戰(zhàn)場(chǎng)。
2017年,大數(shù)據(jù)生態(tài)系統(tǒng)全景回顧基礎(chǔ)架構(gòu)
去年發(fā)生的很多事依舊余波未平,例如流處理的重要性與日俱增,目前Spark已獨(dú)占鰲頭,但人們對(duì)競(jìng)爭(zhēng)產(chǎn)品,例如Flink的關(guān)注也逐漸開始涌現(xiàn)。此外還有一的有趣的話題時(shí)不時(shí)地出現(xiàn)在人們的對(duì)話中:
SQL已經(jīng)正式回歸了
過去十多年來一直面對(duì)NoSQL技術(shù)“打壓”的SQL數(shù)據(jù)庫(kù)技術(shù)現(xiàn)已正式回歸。Google最近發(fā)布了云服務(wù)版的Spanner數(shù)據(jù)庫(kù)。Spanner和CockroachDB承諾提供一種高存活性、強(qiáng)一致性,可橫向擴(kuò)展的SQL數(shù)據(jù)庫(kù)。Amazon發(fā)布的Athena與諸如Snowflake等產(chǎn)品類似,是一種大型的SQL數(shù)據(jù)引擎,可直接查詢S3Bucket中存儲(chǔ)的數(shù)據(jù)。GoogleBigQuery、SparkSQL以及Presto也開始在企業(yè)領(lǐng)域占有了一席之地–這些都是SQL產(chǎn)品。
數(shù)據(jù)虛擬化
在公有云的接受度方面有個(gè)有趣的趨勢(shì):數(shù)據(jù)虛擬化產(chǎn)品的使用率正在快速激增。較為古老的ETL流程需要移動(dòng)海量數(shù)據(jù)并創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)虛擬化技術(shù)使得企業(yè)可以無需移動(dòng),在原地進(jìn)行數(shù)據(jù)分析,借此提高速度和敏捷性。很多下一代數(shù)據(jù)分析產(chǎn)品供應(yīng)商,現(xiàn)在均已同時(shí)提供數(shù)據(jù)虛擬化和數(shù)據(jù)準(zhǔn)備產(chǎn)品,借此幫助客戶更輕松地訪問云中存儲(chǔ)的數(shù)據(jù)。
數(shù)據(jù)管控和安全性
隨著大數(shù)據(jù)在企業(yè)中的應(yīng)用日益成熟,并且數(shù)據(jù)的種類和數(shù)量依然在與日俱增,有關(guān)數(shù)據(jù)管控之類的話題也變的越來越重要。很多企業(yè)已經(jīng)選擇通過“數(shù)據(jù)湖”的方式創(chuàng)建一個(gè)中央倉(cāng)庫(kù),用于保存自己的所有數(shù)據(jù)。但除非人們知道數(shù)據(jù)湖中到底有什么,并且能按需訪問分析工作所需的恰當(dāng)數(shù)據(jù),否則數(shù)據(jù)湖將全無用處。