作者:何鴻凌/亞信數(shù)據(jù)LDP云平臺部總經(jīng)理
1 分工是推動人類社會進步的原動力
隨著人類進步的速度不斷加快,分工不斷細化;細化以后的分工導致了更加專業(yè)的技術(shù)出現(xiàn),更加專業(yè)的技術(shù)反過來又促進了分工的進一步細化,由此人類社會的發(fā)展變成了非線性的指數(shù)級增長模式。
當每個家庭不再自己磨麥子、做面包,而是從面包師手中購買以后,分工更細了,所有人的工作效率得以提升,從而整個社會的效率得以提升,人類也從農(nóng)業(yè)社會逐步過渡到工業(yè)社會,從工業(yè)社會到信息社會更是如此。
我們要做大數(shù)據(jù)PaaS的原因也是如此。我們認為,不久的將來,一切皆服務,一切IT也皆服務。
2 IT世界的分工
最開始做IT是在二戰(zhàn)之后的50年代,那個時代基本沒有什么分工,連軟件都是編碼在硬件之中。到了60年代,基本上操作系統(tǒng)的概念已經(jīng)非常明確了,軟件正式被從硬件中分離了出來,之后一類一類的專業(yè)軟件被分化出來:工具軟件、數(shù)據(jù)庫、中間件。
軟件專業(yè)化之后出現(xiàn)了部署方式的分工,標志性事件就是云計算概念的提出。其實這個概念非常早就出現(xiàn)了,但直到網(wǎng)絡帶寬可以比擬計算機內(nèi)部帶寬的時代才有了實用價值。
最初是IaaS,aws的一系列服務極大改變了IT的業(yè)態(tài),創(chuàng)業(yè)公司不再租用主機設(shè)備、機房和網(wǎng)絡,而是按需購買。IaaS的分工有效解決了系統(tǒng)搭建和運維的問題,降低了創(chuàng)業(yè)公司的門檻,但這一仍還不夠。
接著aws推出了一些稱之為iPaaS的服務,比如 RDS和Elastic Cache。在解放了(或者說解雇了)系統(tǒng)管理員的基礎(chǔ)上,aws進一步解放了(或者說解雇了)平臺管理員,人們不再需要DBA之類的角色,因為aws把所有事情都統(tǒng)一做了,而且因為其規(guī)模效應而收費便宜。
這一切仍然不夠,人們(通常先是創(chuàng)業(yè)公司,然后是大型企業(yè))希望能更簡單、更快速,怎么辦呢?Google給出了另一個選擇--GAE服務,大體的意思是用戶提供代碼,GAE進行運行(Show me the code)。而Heroku推出的服務更是可以跟開發(fā)人員日常使用的版本管理工具git緊密結(jié)合起來,就像保存代碼到版本服務器上一樣,發(fā)布應用就完成了。這簡直是一個神奇的魔法。于是Devops、十二因子開發(fā)方法等逐漸形成。這種形態(tài)的服務可以稱之為aPaaS,因為其服務于application。
當然在往上還有一個最終的形態(tài)就是SaaS,所有的碼農(nóng)都被解放了(或者解雇了),軟件通過服務的形式直接提供給最終用戶。不過軟件往往有很多個性化的東西,具備長尾現(xiàn)象,這是SaaS模式難以全部覆蓋的。
3 大數(shù)據(jù)的世界是如何的?
很有幸,2001年本人畢業(yè)就進入了BI/DW(數(shù)據(jù)倉庫與商業(yè)智能)這個領(lǐng)域,與數(shù)據(jù)打交道的時間超過了15年。從一個人寫統(tǒng)計分析程序,到帶領(lǐng)團隊建設(shè)系統(tǒng),再到運營商總部負責全網(wǎng)BI和集中化BI的規(guī)劃,可以說從不同的角度體驗了數(shù)據(jù)分析和平臺的方方面面。
毫無疑問,在不久之前,這個領(lǐng)域的技術(shù)含量實在是少得可憐。有限的數(shù)據(jù)和有限的分析方法加上有限的需求使得建BI就是為了出報表,各個公司的BI系統(tǒng)都需要努力證明自己是有價值的。但是世界改變得很快,隨著技術(shù)的進步,大量的數(shù)據(jù)被累積下來,Hadoop等大規(guī)模并行處理的平臺被發(fā)明出來,各種使用數(shù)據(jù)的場景被一一探明。“大數(shù)據(jù)”這個替代BI 的概念被正式提出。
很快,大數(shù)據(jù)領(lǐng)域的技術(shù)復雜度飛快地上去了,一開始大家都在搭建各種各樣的傳統(tǒng)數(shù)據(jù)庫、然后是各種各樣的MPP數(shù)據(jù)庫、接著是Hadoop中的各個組件、現(xiàn)在又都在搭建加入了實時流處理技術(shù)的lambda架構(gòu)。
因此,大數(shù)據(jù)的軟件專業(yè)化相比傳統(tǒng)IT的軟件專業(yè)化來得更早,時間更短。但是大數(shù)據(jù)平臺部署的專業(yè)化,只能說處于非常早期的萌芽狀態(tài)。各地方、各公司,甚至是公司中的各個部門都在重復的搭建大數(shù)據(jù)基礎(chǔ)平臺。
參考網(wǎng)上的資料和文檔自己搭建一個大數(shù)據(jù)平臺來進行測試和開發(fā)固然難度不大,但是要真正投入生產(chǎn)、進行性能調(diào)優(yōu)、保證數(shù)據(jù)安全就不是那么簡單的事情了,需要豐富的經(jīng)驗才有可能做好。如果大數(shù)據(jù)的平臺無法形成規(guī)模效益,而又想要享受所有大數(shù)據(jù)紅利的話,相當于每一個公司都在做與BAT一樣的事情,一定會忙于搭建各種硬件、大數(shù)據(jù)軟件平臺,而沒有時間精于自己的業(yè)務邏輯和分析算法,這樣想要取得成功基本是不可能的。