2009年,為了參與這個(gè)讓人振奮的過(guò)程,見(jiàn)證更多的人利用我?guī)椭鷦?chuàng)建的軟件技術(shù)發(fā)揮更大的潛能,我加入了Cloudera。現(xiàn)在,我們見(jiàn)證預(yù)言變成了現(xiàn)實(shí),比如汽車(chē)生產(chǎn)商特斯拉,通過(guò)實(shí)時(shí)收集汽車(chē)動(dòng)態(tài)數(shù)據(jù),了解駕駛者的行為喜好,從而改進(jìn)他們的下一代汽車(chē);航空公司在飛機(jī)上安裝了數(shù)百個(gè)傳感器,根據(jù)回傳的數(shù)據(jù),優(yōu)化航線。這真是令人矚目的改變!甚至在農(nóng)業(yè)、重型機(jī)械、鐵路、零售、健康醫(yī)療等所有我們能想到的行業(yè),數(shù)據(jù)都在發(fā)揮強(qiáng)大的影響力。
Hadoop切實(shí)推動(dòng)了這些令人矚目的改變的實(shí)施。在今天,Hadoop還在日益強(qiáng)大,但我覺(jué)得圍繞Hadoop發(fā)生的事情將更加有趣。在這個(gè)長(zhǎng)期的過(guò)程中,它已經(jīng)孵化了更多偉大的技能。從單機(jī)項(xiàng)目開(kāi)始,然后有了分布式的文件系統(tǒng)GFS和信息專(zhuān)家MapReduce,搭建的調(diào)度程序讓人們能夠基于Hadoop分享資源,并開(kāi)發(fā)其他類(lèi)型的引擎,類(lèi)似于YARN。越來(lái)越多的軟件技術(shù)基于Hadoop衍生出來(lái),比如在線鍵值存儲(chǔ);比如面向列的開(kāi)源數(shù)據(jù)庫(kù)技術(shù)HBase;超越了MapReduce的Spark,在實(shí)時(shí)批處理上表現(xiàn)更卓越;Impala能以SQL語(yǔ)義,快速查詢PB級(jí)大數(shù)據(jù),Lucene擅長(zhǎng)的搜索也被充分整合。每年都有更多的新技術(shù)刷新我們的視野。
試想一下,每一個(gè)系統(tǒng)的進(jìn)化迭代,每一個(gè)開(kāi)源項(xiàng)目的建立,都可能帶動(dòng)一次技術(shù)革新。其中一些非常有用的技術(shù),越來(lái)越多的人會(huì)開(kāi)始使用。這些技術(shù)將會(huì)慢慢變成所有人認(rèn)可的通用標(biāo)準(zhǔn),還有一些不流行地將慢慢被人們遺忘。時(shí)代在急速變化,關(guān)系型數(shù)據(jù)庫(kù)的世界幾乎固化了30年,只有非常細(xì)微的改變。在Hadoop誕生的近10年間內(nèi),技術(shù)界發(fā)生了翻天覆地的變化。我們見(jiàn)到了許多新的模型,它們支持實(shí)時(shí)處理、機(jī)器學(xué)習(xí)的新功能,實(shí)現(xiàn)新事件的新方法……很多現(xiàn)在無(wú)法想象的事都將在隨后幾年發(fā)生。我認(rèn)為這就是Hadoop留給世界的最寶貴的財(cái)富。它平穩(wěn)運(yùn)行10年之后,還將影響到未來(lái)的數(shù)十年。它不設(shè)中心控制的強(qiáng)大軟件系統(tǒng)孵化了各種不同的項(xiàng)目,有的失敗有的成功,但這種由平臺(tái)衍生的復(fù)雜多樣性不可能在一家公司的掌控下實(shí)現(xiàn)。
未來(lái),為我們而來(lái)
今天,來(lái)自世界不同地方的我們通力合作,將決定下一個(gè)劃時(shí)代的平臺(tái)。時(shí)間的推移將證實(shí)我們的設(shè)想。這個(gè)平臺(tái)將更加強(qiáng)大靈活,適用范圍更廣,功能更多。我們能用它來(lái)應(yīng)對(duì)幾乎每一個(gè)問(wèn)題,不僅是關(guān)系型問(wèn)題,還能輕松完成機(jī)器學(xué)習(xí),能搜索、對(duì)大數(shù)據(jù)實(shí)時(shí)批處理,將有更多的工具箱,讓我們?cè)陂_(kāi)源平臺(tái)以更低的成本更好地探索世界。我相信這是一個(gè)光明的未來(lái)。同時(shí),硬件也在進(jìn)步,英特爾發(fā)布了讓人驚喜的新技術(shù),使硬件可以儲(chǔ)存更大量的數(shù)據(jù),閃存與讀取速度更快,成本和以往差不多。當(dāng)可以在內(nèi)存里儲(chǔ)存PB級(jí)的數(shù)據(jù)并且訪問(wèn),甚至通過(guò)網(wǎng)絡(luò)訪問(wèn)時(shí),很多事情也會(huì)因此改變。我們很快將看到一個(gè)全新的時(shí)代,一個(gè)進(jìn)步的框架,一個(gè)被充分提升的有價(jià)值產(chǎn)品。我們將這種理念運(yùn)用于Impala、Kudu等新產(chǎn)品研發(fā)中,但仍有很多事情是我們尚未想到的。
這是一個(gè)令人振奮的時(shí)代,但我希望各位不僅僅是觀望,而是切身參與,加入到開(kāi)源社區(qū)來(lái),甚至是開(kāi)創(chuàng)一個(gè)新的開(kāi)源項(xiàng)目。我也看到越來(lái)越多的項(xiàng)目從中國(guó)出現(xiàn),比如Apache Kylin(麒麟)。我相信在這個(gè)新世界里,改變才是常態(tài),新的技術(shù)每年都會(huì)出現(xiàn)。這些年中國(guó)發(fā)生了巨大的變化,有很多機(jī)會(huì)可以應(yīng)用這些新技術(shù),大數(shù)據(jù)開(kāi)源社區(qū)將會(huì)在中國(guó)落地生根。我會(huì)很期待看到,有多少人采用它,中國(guó)產(chǎn)生貢獻(xiàn),在接下來(lái)的幾年衍生出越來(lái)越多的機(jī)會(huì)。
巔峰對(duì)話實(shí)錄:
Hadoop未來(lái),事實(shí)將碾壓今天所有的質(zhì)疑
人物簡(jiǎn)介
Mike Olson:畢業(yè)于加利福利亞大學(xué),曾作為Sleepycat軟件公司CEO主導(dǎo)開(kāi)發(fā)了全球應(yīng)用廣泛的開(kāi)源數(shù)據(jù)庫(kù)Berkeley DB,后被甲骨文收購(gòu),任甲骨文嵌入式技術(shù)副總裁。2008年與其他三位合伙人創(chuàng)立Cloudera,將其打造成國(guó)際領(lǐng)先的大數(shù)據(jù)數(shù)據(jù)管理和分析平臺(tái)的服務(wù)商,2014年12月Cloudera進(jìn)入中國(guó)。
Doug Cutting:畢業(yè)于美國(guó)斯坦福大學(xué),Lucene、Nutch等開(kāi)源項(xiàng)目的發(fā)起人,打造了目前在云計(jì)算和大數(shù)據(jù)領(lǐng)域里如日中天的Hadoop,讓大數(shù)據(jù)推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型有了開(kāi)源的技術(shù)平臺(tái)。他擅于把高深莫測(cè)的搜索技術(shù)形成產(chǎn)品并貢獻(xiàn)于市場(chǎng)及大眾,現(xiàn)任Cloudera首席架構(gòu)師,同時(shí)也在Apache軟件基金會(huì)董事會(huì)任職。
王建民:清華大學(xué)軟件學(xué)院副院長(zhǎng)、清華大學(xué)軟件學(xué)院大數(shù)據(jù)中心主任,國(guó)家科技部中青年科技領(lǐng)軍人才,國(guó)家基金委杰出青年基金獲得者,國(guó)家“核高基”科技重大專(zhuān)項(xiàng)總體組成員,國(guó)家863計(jì)劃先進(jìn)制造領(lǐng)域?qū)<?、?guó)家衛(wèi)計(jì)委信息化專(zhuān)家委專(zhuān)家、我國(guó)第一個(gè)大數(shù)據(jù)專(zhuān)項(xiàng)“核高基”-“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”負(fù)責(zé)人;工信部“中國(guó)制造2025”:“操作系統(tǒng)與工業(yè)軟件”工作組組長(zhǎng)。