Hadoop的現(xiàn)在和未來是不一樣的
隨著我們加入到Hadoop的生態(tài)系統(tǒng)當(dāng)中,我們是完全投入到開放源當(dāng)中。我們?cè)诓粩嗟臑殚_源社區(qū)貢獻(xiàn)代碼,我們也利用了新的技術(shù),Hadoop從某種意義上來說是低端的軟件解決方案,是針對(duì)非常復(fù)雜的問題解決。我們可以在硬件層增強(qiáng)平臺(tái),這個(gè)平臺(tái)要具備安全性。我們還可以和開源社區(qū)共同驅(qū)動(dòng)新的項(xiàng)目。
有很多機(jī)會(huì)擴(kuò)大Hadoop使它進(jìn)行相應(yīng)的擴(kuò)展,有很多的方法利用現(xiàn)有的技術(shù)使得Hadoop是一個(gè)更加有能力更廣泛的應(yīng)用模式和系統(tǒng)。比如說通過志強(qiáng)處理器不但能夠提高計(jì)算、聯(lián)網(wǎng)和儲(chǔ)存能力。我們希望使得Hadoop的用戶集群能夠更容易部署,尤其是在存儲(chǔ)控制方面。這樣的話保證用戶知道他們的數(shù)據(jù)之后他們能夠介入。
我們希望Hadoop能夠得到增強(qiáng)。看一下結(jié)果,結(jié)果是很令人震驚的,有人把Hadoop看作是一種低端的工作負(fù)載。但是如果沒有一個(gè)合適的工作環(huán)境的話,有可能Hadoop就只能用于低端的工作系統(tǒng),但是如果是在TB級(jí)環(huán)境下,智強(qiáng)處理器上面和標(biāo)準(zhǔn)Hadoop分發(fā)版的情況下處理速度能增強(qiáng)50%,交換率提高50%,硬盤提高40%,系統(tǒng)四個(gè)小時(shí)之內(nèi)批處理的量能夠在7分鐘內(nèi)處理完1TB數(shù)據(jù)。
我們希望建立一個(gè)創(chuàng)新的軟件平臺(tái)。我說過Hadoop本身不是一個(gè)解決方案,它是一個(gè)低端的平臺(tái)服務(wù),大部分的價(jià)值都是來自于上層的應(yīng)用層的應(yīng)用。大部分的公司他們的架構(gòu)、框架,比方說在數(shù)據(jù)的布置上都會(huì)對(duì)數(shù)據(jù)進(jìn)行挖掘和分析。很多時(shí)候挖掘新穎的技能或者是提一些新要求是比較復(fù)雜的,并且成本比較高。我們通過這樣的Hadoop平臺(tái)的支持,能夠使更多的公司更好的利用他們的數(shù)據(jù)?,F(xiàn)在能夠針對(duì)文本搜索的數(shù)據(jù)來進(jìn)行全文本的搜索和語義分析,運(yùn)行在FDS頂層,并且能基于文本搜索進(jìn)行業(yè)務(wù)價(jià)值的提升。
可以看到不但在應(yīng)用層上有所發(fā)展,而且服務(wù)層上也能夠有所發(fā)展。這些大數(shù)據(jù)大部分來自于服務(wù)為基礎(chǔ)的應(yīng)用中,大部分的公司都會(huì)利用Hadoop來提供一系列的服務(wù)。在博康和GDS等這樣的中國(guó)公司,在中國(guó)都在考慮如何擴(kuò)展他們和顧客的關(guān)系?提供一系列的基于Hadoop的服務(wù)。大部分的情況下這里有一個(gè)很強(qiáng)的價(jià)值導(dǎo)向就是可以利用我們英特爾提供的擴(kuò)展的更豐富、更有能力的Hadoop的平臺(tái)去做這些事情。
Hadoop現(xiàn)在和未來是不一樣的,舉個(gè)例子:(圖)Map Reduce的數(shù)據(jù)分析價(jià)值:這兒列出了不同的數(shù)據(jù),我們要去定型圖像的分析處理非常難,因?yàn)檫@些數(shù)據(jù)本身是不對(duì)稱的。比如這個(gè)人的微博帳戶粉絲比其他人多,但是平行處理方式下很可能會(huì)使得這個(gè)群中某些結(jié)點(diǎn)會(huì)處在一種閑置的不活躍的狀態(tài)。英特爾就做了一種技術(shù),把這種組織結(jié)構(gòu)的數(shù)據(jù)通過Hadoop來進(jìn)行圖形并行的處理,我們明年會(huì)推出這個(gè)產(chǎn)品。不但包括圖形處理,還包括流處理都會(huì)放到Hadoop上加以利用。
擁抱社區(qū) 推進(jìn)開源
英特爾在各方面推進(jìn)開源,我們現(xiàn)在是一個(gè)全球領(lǐng)先的開源軟件公司,我們有上萬軟件開發(fā)者,在中國(guó)有超過1千名軟件開發(fā)者,大部分是用Linux,過去幾年中我們對(duì)Linux有很大貢獻(xiàn)。Hadoop不但是一個(gè)商業(yè)軟件,也是開源的來源。開源軟件是一個(gè)開放工具,但是對(duì)于英特爾來說我們開發(fā)開源軟件,Hadoop不但是能夠帶來很大的價(jià)值和現(xiàn)金流,而且能夠推進(jìn)整個(gè)行業(yè)的平臺(tái)的能力。所以說我們希望能夠圍繞著開源的平臺(tái)增強(qiáng)整個(gè)生態(tài)系統(tǒng)的能力。
最好的解決方案是基于最好的技術(shù),而英特爾就是一個(gè)技術(shù)公司。我們的合作方能夠?yàn)槭袌?chǎng)提供相應(yīng)的解決方案,因?yàn)樵趦?chǔ)存層次、網(wǎng)絡(luò)層、技術(shù)方面都需要很好的技術(shù)最終才能為軟件帶來價(jià)值。