中國IDC圈2月14日報道:在喜新厭舊的技術(shù)初創(chuàng)企業(yè)界,已有 3年 歷史 “大數(shù)據(jù)” 聽起來似乎已經(jīng)過氣了。雖然 Hadoop 在 2006年 已經(jīng)出來,但 “大數(shù)據(jù)” 這個概念大概是在 2011 到 2014年 左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼里,“大數(shù)據(jù)” 成為了新的 “金子” 或者 “石油”。然而,至少在我跟業(yè)界人士交談中,大家越來越感覺到這項技術(shù)已經(jīng)在某種程度上陷入了停滯。2015年 可能是數(shù)據(jù)領(lǐng)域的那些酷小子轉(zhuǎn)移興趣,開始沉迷于 AI 以及機(jī)器智能、深度學(xué)習(xí)等許多相關(guān)概念的年份。
拋開不可避免的炒作周期曲線態(tài)勢不管,我們的 “大數(shù)據(jù)版圖” 已經(jīng)進(jìn)入第 4 個年頭了,趁這個時候退一步來反思一下去年發(fā)生了什么,思考一下這個行業(yè)的未來會怎樣是很有意義的。
那么 2016年 大數(shù)據(jù)到底還算不算個 “東西” 呢?我們不妨探討一下。
企業(yè)技術(shù)=艱苦工作
大數(shù)據(jù)有趣的一點(diǎn)在于,它不再像當(dāng)初經(jīng)歷過那樣有可能成為炒作的題材了。
經(jīng)過炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務(wù)往往那些大家能夠接觸、可以感知,或者與大眾相關(guān)聯(lián)的:比如移動應(yīng)用、社交網(wǎng)絡(luò)、可穿戴、虛擬現(xiàn)實(shí)等。
但大數(shù)據(jù)基本上就是管道設(shè)施的一種。當(dāng)然,大數(shù)據(jù)為許多消費(fèi)者或商業(yè)用戶體驗(yàn)提供了動力,但它的核心是企業(yè)技術(shù):數(shù)據(jù)庫、分析等,這些東西都是在后端運(yùn)行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應(yīng)企業(yè)端的新技術(shù)是不可能的。
大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司(尤其是 Google、Facebook、Twitter 等)的共生關(guān)系的推動,這些公司既是核心大數(shù)據(jù)技術(shù)的重度用戶,同時也是這些技術(shù)的創(chuàng)造者。這些公司突然間面對著規(guī)模前所未有的龐大數(shù)據(jù)時,由于本身缺乏傳統(tǒng)的(昂貴的)基礎(chǔ)設(shè)施,也沒有辦法招募到一些最好的工程師,所以只好自己動手來開發(fā)所需的技術(shù)。后來隨著開源運(yùn)動的迅速發(fā)展,一大批此類新技術(shù)開始共享到更廣的范圍。然后,一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些 “數(shù)字原生” 公司,包括嶄露頭角的獨(dú)角獸公司,也開始面臨著互聯(lián)網(wǎng)大公司的類似需求,由于它們自身也沒有傳統(tǒng)的基礎(chǔ)設(shè)施,所以自然就成為了那些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功又導(dǎo)致了更多的創(chuàng)業(yè)活動發(fā)生,并獲得了更多的 VC 資助,從而帶動了大數(shù)據(jù)的起勢。
快速發(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機(jī)遇:讓中等規(guī)模到跨國公司級別的更大一批企業(yè)采用大數(shù)據(jù)技術(shù)。這些公司跟 “數(shù)字原生” 公司不一樣的是,他們沒有從零開始的有利條件。而且他們失去的會更多:這些公司絕大部分的現(xiàn)有技術(shù)基礎(chǔ)設(shè)施都是成功的。那些基礎(chǔ)設(shè)施當(dāng)然未必是功能完備的,組織內(nèi)部許多人也意識到對自己的遺留基礎(chǔ)設(shè)施進(jìn)行現(xiàn)代化應(yīng)該是早點(diǎn)好過晚點(diǎn),但他們不會一夜間就把自己的關(guān)鍵業(yè)務(wù)取代掉。任何革命都需要過程、預(yù)算、項目管理、試點(diǎn)、局部部署以及完備的安全審計等。大企業(yè)對由年輕的初創(chuàng)企業(yè)來處理自己基礎(chǔ)設(shè)施的關(guān)鍵部分的謹(jǐn)慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多(還是大多數(shù)?)企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端(至少不愿遷移到公有云)。
還需要理解的另一個關(guān)鍵是:大數(shù)據(jù)的成功不在于實(shí)現(xiàn)技術(shù)的某一方面(像 Hadoop 什么的),而是需要把一連串的技術(shù)、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲數(shù)據(jù)、清洗數(shù)據(jù)、查詢數(shù)據(jù)、分析數(shù)據(jù)并對數(shù)據(jù)進(jìn)行可視化。這些工作一部分可以由產(chǎn)品來完成,而有的則需要人來做。一切都需要無縫集成起來。最后,要想讓所有這一切發(fā)揮作用,整個公司從上到下都需要樹立以數(shù)據(jù)驅(qū)動的文化,這樣大數(shù)據(jù)才不僅僅是個 “東西”,而且就是那個(關(guān)鍵的)“東西”。
換句話說:有一堆艱苦的工作要做。
部署階段
所以,這就是在經(jīng)過幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC 投資頻等頭條后,我們開始步入大數(shù)據(jù)的部署期和早期成熟期的原因。
更有前瞻性的大公司(姑且稱之為傳統(tǒng)技術(shù)采用周期的 “早期采用者”)在 2011 到 2013年 間開始實(shí)驗(yàn)大數(shù)據(jù)技術(shù),推出了若干的 Hadoop 試點(diǎn)計劃(往往是因?yàn)橼s時髦)或者嘗試一些點(diǎn)方案。他們招募了各種各樣此前并不存在的崗位(如 “數(shù)據(jù)科學(xué)家” 或 “首席數(shù)據(jù)官”)。他們進(jìn)行了各種努力,包括吧全部數(shù)據(jù)都堆到一個數(shù)據(jù)容器(“data lake”),然后希望緊跟著就會發(fā)生奇跡(往往不會)。他們逐步建設(shè)自己的內(nèi)部能力,試驗(yàn)了各種供應(yīng)商,從試點(diǎn)計劃到生產(chǎn)中的局部部署,然后到現(xiàn)在爭論要不要全企業(yè)鋪開(全范圍鋪開實(shí)施的情況還很罕見)。許多情況下,他們正處在這樣一個重要的拐點(diǎn)上,即經(jīng)過大數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)年建設(shè)后,能夠展示的成果還不多,至少在公司內(nèi)部的商業(yè)用戶看來是這樣的。但是大量吃力不討好的工作已經(jīng)做完了,現(xiàn)在開始進(jìn)入到有影響力的應(yīng)用部署階段了。只是從目前來看,這種建構(gòu)在核心架構(gòu)之上的應(yīng)用數(shù)量還不成比例。