2012 年被認(rèn)為是大數(shù)據(jù)元年。在這一年,美國奧巴馬政府推出了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,啟動(dòng)了美國國家大數(shù)據(jù)戰(zhàn)略;用戶日志管理公司 Splunk 成功上市,成為大數(shù)據(jù)第一股。在隨后的幾 年中,大數(shù)據(jù)風(fēng)潮席卷全球,技術(shù)、資本、人才趨 之若鶩,大數(shù)據(jù)產(chǎn)業(yè)出現(xiàn)了一波脈沖式的發(fā)展。從全球經(jīng)驗(yàn)來看,企業(yè)是大數(shù)據(jù)應(yīng)用創(chuàng)新的主要力量,政府為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供了巨大支撐,開源社區(qū)則為大數(shù)據(jù)技術(shù)進(jìn)步營(yíng)造了廣闊空間。但是,與此 同時(shí),鼓勵(lì)數(shù)據(jù)價(jià)值發(fā)現(xiàn)之“魚”和保護(hù)個(gè)人隱私之“熊掌”兩者不可兼得的法規(guī)矛盾變得越來越突出。
經(jīng)濟(jì)層面
創(chuàng)造價(jià)值是大數(shù)據(jù)應(yīng)用創(chuàng)新的源動(dòng)力
利用大數(shù)據(jù)資源和技術(shù)創(chuàng)造更多價(jià)值,成為企業(yè) 開展大數(shù)據(jù)應(yīng)用創(chuàng)新的源動(dòng)力。圍繞既有的資源稟賦和競(jìng)爭(zhēng)優(yōu)勢(shì),企業(yè)進(jìn)行著各種大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新,探索 出大數(shù)據(jù)背景下適合企業(yè)自身發(fā)展的路徑。
一方面,傳統(tǒng)IT硬件廠商積極向大數(shù)據(jù)基礎(chǔ)設(shè) 施和大數(shù)據(jù)技術(shù)平臺(tái)服務(wù)提供商轉(zhuǎn)型。根據(jù)美國專 業(yè)分析機(jī)構(gòu)Wikibon發(fā)布的報(bào)告,IBM公司2013年從大數(shù)據(jù)相關(guān)產(chǎn)品及服務(wù)中獲得了13.68 億美元收益。其具體產(chǎn)品包括服務(wù)器與存儲(chǔ)硬件、數(shù)據(jù)庫軟件、 分析應(yīng)用程序以及相關(guān)服務(wù),還有 DB2、Informix、 InfoSphere 數(shù)據(jù)庫平臺(tái),Cognos 與 SPSS 等大數(shù)據(jù) 分析應(yīng)用類產(chǎn)品?;萜展驹?013年獲得的大數(shù)據(jù)營(yíng)業(yè)收入總值為8.69億美元,它還提供與之相關(guān) 的硬件、軟件以及服務(wù),其中最為知名的方案當(dāng)數(shù) Vertica 分析平臺(tái)。
另一方面,諸多新型互聯(lián)網(wǎng)企業(yè)成為數(shù)據(jù)資源的集聚方,通過創(chuàng)新形成大量的數(shù)據(jù)產(chǎn)品服務(wù)于各類應(yīng) 用場(chǎng)景。比如,eBay公司用數(shù)據(jù)驅(qū)動(dòng)商業(yè),其所有的 數(shù)據(jù)產(chǎn)品都是針對(duì)業(yè)務(wù)而生,數(shù)據(jù)部門需要對(duì)不斷變 化的用戶需求找到解決之法,也就是從客戶的行為數(shù)據(jù)中尋找更多新價(jià)值。eBay公司針對(duì)賣家工具提供的 Seller Hub,可以對(duì)每一位賣家進(jìn)行深入分析,使賣家了解哪些商品更暢銷,產(chǎn)品如何標(biāo)價(jià)才能具備競(jìng)爭(zhēng) 優(yōu)勢(shì)等。再比如,Salesforce公司是一家專注于CRM
(用戶關(guān)系管理)的公司,通過對(duì)用戶數(shù)據(jù)分析挖掘 形成新的價(jià)值,是大數(shù)據(jù)在精準(zhǔn)營(yíng)銷領(lǐng)域的典型應(yīng)用。 Salesforce公司在2015年的營(yíng)業(yè)收入超過50億美元。
據(jù)大數(shù)據(jù)行業(yè)分析師估計(jì),到2020年,Salesforce公司有望成為一家市值達(dá) 1000 億美元的公司。
技術(shù)層面
開源社區(qū)是大數(shù)據(jù)技術(shù)進(jìn)步的大生態(tài)
開源模式成為大數(shù)據(jù)技術(shù)創(chuàng)新的主要途徑。從大數(shù)據(jù)技術(shù)的發(fā)展歷程上可以看出,大數(shù)據(jù)核心技術(shù)如分布式存儲(chǔ)、云端分布式及網(wǎng)格計(jì)算均依賴于開源模式,即通過開放式的平臺(tái),吸引全球開發(fā)者通過開源社區(qū)進(jìn)行代碼的開發(fā)、維護(hù)和完善,從而集全球智慧推動(dòng)大數(shù)據(jù)技術(shù)的不斷進(jìn)步。當(dāng)前,全球各大企業(yè) 加大了對(duì)開源社區(qū)的贊助和智力投入,開源社區(qū)在大 數(shù)據(jù)技術(shù)進(jìn)步中占據(jù)核心地位。
一方面,由第三方打造的大數(shù)據(jù)技術(shù)開源平臺(tái) 發(fā)揮了積極作用。Apache 軟件基金會(huì)(ASF)是推動(dòng)大數(shù)據(jù)技術(shù)發(fā)展的全球頂級(jí)開源社區(qū)。ASF 正式創(chuàng)建 于 1999 年,至今已經(jīng)成功孵化了眾多大數(shù)據(jù)相關(guān)的 開源項(xiàng)目。ASF 大數(shù)據(jù)開源社區(qū)的創(chuàng)建過程是全球 大數(shù)據(jù)技術(shù)公司的集體智慧。其中,Apache Hadoop 技術(shù)的發(fā)展就是非常典型的例子。谷歌公司在 2003 年發(fā)布的關(guān)于谷歌文件系統(tǒng)(Google GFS)的論文 和 2004 年發(fā)布的關(guān)于編程模型 MapReduce 的論文是 Hadoop 的技術(shù)雛形。2005 年, 雅虎公司啟動(dòng)了 Nutch 項(xiàng)目,提供了一個(gè)專門的團(tuán)隊(duì)和資源將 Hadoop 發(fā)展成一個(gè)可在網(wǎng)絡(luò)上運(yùn)行的系統(tǒng)。到 2008 年 1 月, Hadoop 已成為 Apache 的頂級(jí)項(xiàng)目,并成為大數(shù)據(jù)發(fā)展的技術(shù)標(biāo)準(zhǔn)。
另一方面,大數(shù)據(jù)領(lǐng)先企業(yè)也在圍繞自身生態(tài) 打造技術(shù)開源社區(qū)。這些企業(yè)通過開源項(xiàng)目的方式推動(dòng)技術(shù)創(chuàng)新,并將創(chuàng)新成果通過開源方式向全社會(huì)輻 射,引導(dǎo)和推動(dòng)大數(shù)據(jù)技術(shù)的發(fā)展,在國際上逐漸形成了一套高效運(yùn)轉(zhuǎn)的研發(fā)產(chǎn)業(yè)化體系。開源提供了一 種高效生產(chǎn)軟件的方法,降低了企業(yè)進(jìn)入大數(shù)據(jù)應(yīng)用服務(wù)市場(chǎng)的壁壘,催生更多技術(shù)和服務(wù)應(yīng)用的創(chuàng)新。 比如,F(xiàn)acebook 公司于 2013 年 11 月開源了 Presto 技術(shù),該技術(shù)是新型分布式 SQL 引擎,它能夠?qū)Ω?種大小(從 GB 級(jí)至 PB 級(jí))的數(shù)據(jù)源進(jìn)行交互式的 分析查詢。2015 年,Presto 社區(qū)的代碼提交數(shù)量提 高了 48%, 而 fork 的數(shù)量則提高了 99%。Airbnb、 Dropbox、Netflix 等各大公司都開始使用 Presto 作 為交互式查詢引擎。