用企業(yè)IT的行業(yè)標準來看,云供應商還比較小,但是其不斷膨脹的野心(其中包括從企業(yè)棧底層的IaaS向應用發(fā)展的企圖)與企業(yè)數(shù)據(jù)逐漸向云端遷移的趨勢結(jié)合,將打開龐大的企業(yè)技術(shù)市場大門,與傳統(tǒng)IT供應商展開激戰(zhàn),而大數(shù)據(jù)和AI將是核心戰(zhàn)場。
2017數(shù)據(jù)生態(tài)體系概覽
基礎(chǔ)設施
去年的許多趨勢今年仍將延續(xù),比如流處理技術(shù),這方面Spark目前是主宰,不過像Flink這樣的有趣競爭者正在出現(xiàn)。此外,還有以下一些趨勢:
SQL正式回歸
在給NoSQL當了10年副手之后,曾經(jīng)的霸主SQL數(shù)據(jù)庫正式吹響了回歸的號角。Google最近發(fā)布了Spanner數(shù)據(jù)庫的云端版。Spanner和CockroachDB(Spanner的開源版)都提供了可行的、強一致性的、可伸縮的SQL數(shù)據(jù)庫。Amaozn推出了Athena,跟Snowflake等產(chǎn)品類似,這是一款SQL數(shù)據(jù)引擎,可直接查詢S3下的數(shù)據(jù)。GoogleBigQuery、SparkSQL以及Presto等在企業(yè)逐漸獲得采用——這些都是SQL產(chǎn)品。
數(shù)據(jù)可視化
與公有云采用相關(guān)的一個有趣的趨勢是數(shù)據(jù)可視化。舊的ETL處理需要轉(zhuǎn)移大量的數(shù)據(jù)(而且往往要建立冗余數(shù)據(jù)集)并且建立數(shù)據(jù)倉庫,而數(shù)據(jù)可視化可以在數(shù)據(jù)保持不動的情況對其進行分析,提高了速度和敏捷性。許多下一代的分析供應商現(xiàn)在都可以同時提供數(shù)據(jù)可視化和數(shù)據(jù)準備服務,并讓客戶可訪問存儲在云端的數(shù)據(jù)。
數(shù)據(jù)治理與安全
隨著大數(shù)據(jù)在企業(yè)側(cè)走向成熟,以及數(shù)據(jù)的多樣性和體量的不斷發(fā)展,像數(shù)據(jù)治理這樣的主題也變得日益重要。許多公司已經(jīng)選擇了“數(shù)據(jù)湖”作為把所有數(shù)據(jù)收集起來的手段。但除非你知道里面有什么東西,并且能夠訪問到合適的數(shù)據(jù)進行分析,否則的話數(shù)據(jù)湖再大也沒有意義。但是想讓用戶方便地找到想要的東西同時管理好權(quán)限并不容易。除了數(shù)據(jù)湖以外,治理的另一個集中的主題是以安全的、可審計的方式為任何人提供對可靠數(shù)據(jù)的便捷訪問。Informatica、Collibra、Alation等大小供應商提供了數(shù)據(jù)目錄、參考數(shù)據(jù)管理、數(shù)據(jù)字典以及數(shù)據(jù)幫助臺等服務。
數(shù)據(jù)科學家會不會瀕臨滅絕?
僅僅幾年前數(shù)據(jù)科學家還被譽為是“二十一世紀最性感的職業(yè)”。而且“數(shù)據(jù)科學家”在Glassdoor的“美國最佳職位”排行榜中仍然高居榜首。
但這個幾年前才出現(xiàn)的職業(yè)現(xiàn)在似乎有被圍困的感覺。這部分是因為必要性——盡管學校和程序在批量制造出新的數(shù)據(jù)科學家軍團,但周圍卻見不到多少,尤其是在招聘到頂級人才方面遭遇更大困難的財富1000強公司。在一些組織,數(shù)據(jù)科學部門正在從使能者演變?yōu)槠款i。
與此同時,AI的大眾化以及自服務工具的蔓延使得數(shù)據(jù)科學技能有限的數(shù)據(jù)工程師,或者甚至是數(shù)據(jù)分析師執(zhí)行一些基本功能變得更加容易了,而這些功能直到最近仍然是數(shù)據(jù)科學家的領(lǐng)地。在自動化工具的幫助下,企業(yè)的大量大數(shù)據(jù)工作,尤其是那些簡單枯燥的工作,將由數(shù)據(jù)工程師和數(shù)據(jù)分析師進行處理,而不是有著深厚技術(shù)技能的數(shù)據(jù)科學家。
換言之,除非數(shù)據(jù)科學最終不是由機器來完全處理的。但一些初創(chuàng)企業(yè)開始旗幟鮮明地打出了“數(shù)據(jù)科學自動化”的口號——其中最顯著的包括剛剛獲得5400萬美元融資的DataRobot,SalesforceEinstein也宣稱自己可以自動生成模型。
不奇怪的是,這些趨勢在數(shù)據(jù)科學社區(qū)不受歡迎并引起了爭議(當然了,誰會歡迎搶自己飯碗的事情)。然而,數(shù)據(jù)科學家目前大概還不需要太過恐懼。在可遇見的未來里,自服務工具和自動化模型選擇將會“增強”數(shù)據(jù)科學家而不是消滅他們,其作用將是解放他們,讓他們把焦點放在需要判斷、創(chuàng)造力以及社會化技能或者垂直行業(yè)知識的任務上面。
讓一切一起協(xié)作:數(shù)據(jù)工作臺的崛起
在大多數(shù)大型企業(yè)里,大數(shù)據(jù)的采用都是從少數(shù)獨立項目(這里做一點Hadoop集群,那里用一用分析工具)以及一些新的職位(數(shù)據(jù)科學家、首席數(shù)據(jù)官)開始的。
但現(xiàn)在異質(zhì)性已經(jīng)開始發(fā)展,各種各樣的工具在整個企業(yè)范圍內(nèi)得到了使用。在大公司的組織范圍內(nèi),集中化的“數(shù)據(jù)科學部門”正在讓位于更加去中心化的組織,這個由數(shù)據(jù)科學家、數(shù)據(jù)工程師以及數(shù)據(jù)分析師組成的群體,正日益嵌入到不同的業(yè)務部門里面。因此,對于平臺來說需求已經(jīng)很明顯了,那就是要讓一切都能協(xié)作到一起來,因為大數(shù)據(jù)的成功正是建立在設立一條由技術(shù)、人以及流程組成的裝配線基礎(chǔ)之上的。