[前言]對中國大數(shù)據(jù)產(chǎn)業(yè)來說,2016年是從垂直領(lǐng)域野蠻生長到爆發(fā)全國范圍關(guān)注熱潮的一個(gè)轉(zhuǎn)折點(diǎn)。不論是人山人海巨頭云集的貴陽數(shù)博會,還是首次在華舉辦的全球頂級大數(shù)據(jù)會議Strata + Hadoop World,都揭示了中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的澎湃動(dòng)力。政府和產(chǎn)業(yè)需要轉(zhuǎn)型,互聯(lián)網(wǎng)公司、新興的智能硬件公司、傳統(tǒng)的生產(chǎn)制造型企業(yè)等都希望借力大數(shù)據(jù)實(shí)現(xiàn)更智能更個(gè)性化更有競爭力的渴望。然而,我國大數(shù)據(jù)人才稀缺使得大數(shù)據(jù)技術(shù)發(fā)展情況不夠理想,這也導(dǎo)致中國在國際社區(qū)話語權(quán)的缺失。因此,中國需要有更專業(yè)更有前瞻性眼光的機(jī)構(gòu)站出來,集合優(yōu)勢資源,對行業(yè)現(xiàn)狀做出改變,培育優(yōu)質(zhì)專業(yè)人才。
2016年8月,清華大學(xué)宣布與Hadoop開發(fā)社區(qū)的頂級貢獻(xiàn)者Cloudera公司聯(lián)合推進(jìn)大數(shù)據(jù)人才教育項(xiàng)目,在大數(shù)據(jù)開源社區(qū)方面開展合作。在Hadoop生態(tài)領(lǐng)域,Cloudera是規(guī)模最大、知名度最高的企業(yè),也是當(dāng)前大數(shù)據(jù)領(lǐng)域最強(qiáng)有力的解決方案服務(wù)商之一。帶著對中國大數(shù)據(jù)市場的滿滿誠意,Cloudera創(chuàng)始人、董事長兼首席戰(zhàn)略官M(fèi)ike Olson以及Hadoop之父、Cloudera首席架構(gòu)師Doug Cutting來到清華,為三百余位現(xiàn)場聽眾及兩千余名在線直播聽眾講述了Hadoop的發(fā)展歷程,并與清華大學(xué)軟件學(xué)院副院長、黨委書記王建民及現(xiàn)場的同學(xué)們展開了深刻而有趣的對話。
Doug Cutting口述:
Hadoop十年,撬動(dòng)未曾料及的魔法時(shí)代
10年前我開創(chuàng)Hadoop時(shí),存儲企業(yè)數(shù)據(jù)和商業(yè)數(shù)據(jù)系統(tǒng)的使用和現(xiàn)在大不相同。對大多數(shù)機(jī)構(gòu)來說,企業(yè)數(shù)據(jù)建立如果不依賴關(guān)系型數(shù)據(jù)庫,就完全沒可能了解數(shù)據(jù)。但關(guān)系型數(shù)據(jù)庫使用起來很昂貴,也不適用于所有形式的數(shù)據(jù)。那時(shí)人們關(guān)注很多數(shù)據(jù)只是聚焦在關(guān)鍵字、任務(wù)、業(yè)務(wù)等(編者注:可數(shù)據(jù)庫領(lǐng)域的查詢條件)。世事變遷,Hadoop是如何帶來一些改變的呢?
因興趣創(chuàng)建Lucene,試水開源社區(qū)
在大約18年前,當(dāng)時(shí)我在Excite負(fù)責(zé)做搜索引擎。事實(shí)上,我做過多個(gè)搜索引擎,從就職Xerox開始,到蘋果再到Excite。我喜歡做搜索引擎并且一直有一個(gè)想法,用一個(gè)新的方式去寫搜索引擎,Excite對這個(gè)想法并不感興趣,于是只能自己鉆研。我嘗試用一種新的編程語言,并認(rèn)為它會成為一種通用計(jì)算機(jī)語言,就是當(dāng)時(shí)并非主流的Java。
1998年我完成了Lucene的第一個(gè)版本。當(dāng)時(shí)并沒有想好能用它做什么,只是有興趣嘗試并在業(yè)余時(shí)間完成了。兩年后,也就是2000年,我還沒想好用Lucene能做什么,但我決定不能就這樣冒然地成立一家新公司,因?yàn)槲也磺宄?cái)務(wù)、人事、合同等公司常規(guī)流程。我真心希望人們能用上這個(gè)產(chǎn)品,這也是我開發(fā)這個(gè)產(chǎn)品的動(dòng)機(jī),我也希望能讓更多人發(fā)現(xiàn)它的實(shí)用性,并從中發(fā)現(xiàn)價(jià)值。我決定把它貢獻(xiàn)到開源社區(qū)。
在把Lucene的代碼貢獻(xiàn)到開源社區(qū)的第二年,它被一些小的社區(qū)使用,我也因此被邀請加入Apache軟件基金會。Apache專注于開源,集合了一群軟件界擁有最強(qiáng)大腦的工程師。它追求開放自由,讓人們利用軟件變得無所不能。在市場需求推動(dòng)下,我們合作將軟件出版成商業(yè)產(chǎn)品,但Apache不強(qiáng)調(diào)歸屬于某個(gè)社區(qū),而且所有的社區(qū)都開放,歡迎新成員加入。Apache社區(qū)上所有功能和提供的信息都及時(shí)共享并不斷更新。從2001年加入Apache到目前為止,這種模式已經(jīng)得到了令人驚嘆的成果。
其中一點(diǎn),就是隨著越來越多的開發(fā)者,這種開放模式讓人們可以隨時(shí)隨地的使用開源軟件,也可以向其他推薦。當(dāng)需要向老板匯報(bào)卻又不在辦公室時(shí),可以下載之后在家處理,信息也可以實(shí)時(shí)同步。這使得人們處理程序、改進(jìn)程序、理解程序變得容易,能隨時(shí)和其他開發(fā)者溝通。如果從事軟件開發(fā),你會發(fā)現(xiàn)以往只有機(jī)會和公司的同事討論工作,而做開源項(xiàng)目則可以和全世界討論,有很多表現(xiàn)的機(jī)會,甚至可以和自己在業(yè)內(nèi)的“粉絲”去溝通。這種自我展現(xiàn)的方式有很好的激勵(lì)作用,為了更好地在觀眾面前展示自己,人們會更努力地工作,讓項(xiàng)目日臻完美。
此外,開發(fā)者通過做軟件會被很多機(jī)構(gòu)了解并認(rèn)可,你的軟件很可能會富裕一個(gè)行業(yè)全新的生命力,所以每個(gè)方案每次改變都要有普適性。要做到為每一個(gè)人服務(wù),還要堅(jiān)持一段時(shí)間,用最好的方法做正確的事。開源并不僅是幫助開發(fā)者,它更會孕育出一批高質(zhì)量的軟件,讓人們會越來越有動(dòng)力去把事情做好。