“雅虎有90%以上的價(jià)值由數(shù)據(jù)驅(qū)動(dòng)”——雅虎北京研發(fā)中心高級(jí)經(jīng)理韓軼平
談到數(shù)據(jù)的時(shí)候,韓軼平頗顯激動(dòng),他告訴記者,在雅虎內(nèi)部,數(shù)據(jù)的概念已經(jīng)深入人心。我們的工程師不是軟件工程師,而是數(shù)據(jù)工程師;我們幾乎所有的產(chǎn)品都是以數(shù)據(jù)驅(qū)動(dòng)的;雅虎90%以上的價(jià)值由數(shù)據(jù)驅(qū)動(dòng)。
▲雅虎北京研發(fā)中心高級(jí)經(jīng)理韓軼平
90%以上的價(jià)值由數(shù)據(jù)驅(qū)動(dòng)?這樣的數(shù)字足以讓某些仍然無(wú)視數(shù)據(jù)存在的企業(yè)感到一陣恐慌。為進(jìn)一步了解雅虎究竟是如何利用數(shù)據(jù)創(chuàng)造價(jià)值、雅虎的“數(shù)據(jù)平臺(tái)化”進(jìn)展,以及企業(yè)應(yīng)該如何利用Hadoop實(shí)現(xiàn)數(shù)據(jù)價(jià)值的挖掘,IT168記者采訪了雅虎北京高級(jí)研發(fā)經(jīng)理、第五屆Hadoop中國(guó)云計(jì)算大會(huì)的程序委員會(huì)聯(lián)合主席韓軼平。
一、 Hadoop現(xiàn)狀“方興未艾”前景更深更廣
對(duì)于Hadoop的前景,業(yè)界的看法不盡相同,而在韓軼平看來(lái),就是八個(gè)字——方興未艾、更廣更深。
IT168:你如何看待Hadoop的發(fā)展現(xiàn)狀以及未來(lái)的應(yīng)用前景?
韓軼平:Hadoop現(xiàn)狀可以用一個(gè)很恰當(dāng)?shù)脑~去形容,那就是“方興未艾”。
從我們最早在中國(guó)做Hadoop沙龍到今年第五屆Hadoop in China這個(gè)會(huì),也差不多是四年多將近五年的時(shí)間了。08年的沙龍,只是一些愛(ài)好者或者說(shuō)感興趣的人來(lái)參加,到09年第一次辦大會(huì)的時(shí)候,唱主角的基本上就是雅虎、Facebook這幾個(gè)美國(guó)的大公司。國(guó)內(nèi)當(dāng)然也有百度、中國(guó)移動(dòng)這樣開(kāi)始做這些工作。那么到去年很多公司已經(jīng)出現(xiàn)了,名字基本上報(bào)不過(guò)來(lái)了,基本上中國(guó)的互聯(lián)網(wǎng)公司,比較大的公司都已經(jīng)在用了,甚至包括其他行業(yè)的公司小公司。從今年報(bào)名的情況來(lái)看,今年將會(huì)有更多的公司加入進(jìn)來(lái)。
我們也看到,就是說(shuō)最早期的時(shí)候,很多公司只是來(lái)了解一下情況,了解一下什么是Hadoop,大概干嗎的。到之后慢慢的越來(lái)越多的公司是過(guò)來(lái),就是了解具體到底我該怎么用,到底怎么樣,我可以開(kāi)始使用Hadoop,我可以參與。到現(xiàn)在更多是,通過(guò)使用以后,越來(lái)越多公司的人提出大家的一些想法,在使用中遇到的問(wèn)題和經(jīng)驗(yàn),然后要求怎么樣去改進(jìn)Hadoop。
所以,我為什么說(shuō)方興未艾呢?盡管這幾年下來(lái),Hadoop已經(jīng)有了很大的發(fā)展,但是可以說(shuō),未來(lái)的市場(chǎng)會(huì)更大,有更多的公司將會(huì)參與進(jìn)來(lái),已經(jīng)在使用的公司也需要有更多更深入的使用。
Hadoop的應(yīng)用前景可以分成幾個(gè)方向:第一個(gè)方向是從橫向來(lái)看,我們會(huì)有更多的應(yīng)用,越來(lái)越多的應(yīng)用,例如雅虎已經(jīng)從最開(kāi)始的搜索使用Hadoop,發(fā)展到現(xiàn)在雅虎大部分產(chǎn)品都在使用Hadoop。
從縱向的來(lái)講,一方面,未來(lái)除了互聯(lián)網(wǎng)企業(yè)之外,會(huì)有更多的行業(yè)進(jìn)入到。在美國(guó)現(xiàn)在已經(jīng)有很多銀行已經(jīng)使用Hadoop。在中國(guó)我也聽(tīng)到有很多銀行業(yè)、電力行業(yè)、通信行業(yè)等數(shù)據(jù)密集型的企業(yè),他們也開(kāi)始了解使用Hadoop,我想這是一個(gè)方向;另一方面,Hadoop的應(yīng)用也會(huì)變得越來(lái)越深入。從最開(kāi)始大家做一些簡(jiǎn)單的實(shí)驗(yàn)、離線數(shù)據(jù)處理,慢慢變成大規(guī)模的數(shù)據(jù)處理、線上產(chǎn)品的數(shù)據(jù)分析等。
IT168:現(xiàn)在很多商業(yè)的公司都加入到Hadoop的圈子,有一些公司推出商業(yè)的版本,這是否意味著Hadoop的發(fā)展進(jìn)入了一個(gè)新的階段?是不是已經(jīng)從學(xué)術(shù)屆開(kāi)始走入商業(yè)圈?這對(duì)開(kāi)源社區(qū)的發(fā)展是否會(huì)有一定的影響呢?
韓軼平:首先,Hadoop從來(lái)就不僅僅是一個(gè)學(xué)術(shù)性的東西。Hadoop的起源就是作為一個(gè)商業(yè)應(yīng)用開(kāi)始的,最早Doug開(kāi)始做Hadoop,很快就加入了雅虎,Hadoop的最初開(kāi)發(fā)工作,就是圍繞著一個(gè)很重要的商業(yè)應(yīng)用——雅虎的網(wǎng)頁(yè)搜索而進(jìn)行的,然后慢慢的有其他公司的實(shí)際應(yīng)用進(jìn)入,它從來(lái)不是一個(gè)研究性的項(xiàng)目,一直就是一個(gè)很商業(yè)化的,很實(shí)用性的一個(gè)項(xiàng)目。
一些公司從2009年甚至更早就開(kāi)始做一些商業(yè)化的版本,更多的是做一些,比如說(shuō)輔助工具、包裝、解決方案、培訓(xùn)知識(shí)等等這些東西。這些東西起對(duì)于幫助Hadoop的普及起到了很大的效果,因?yàn)樽畛鮄adoop的應(yīng)用需要很多時(shí)間對(duì)Hadoop的相關(guān)知識(shí)進(jìn)行學(xué)習(xí),甚至需要很多對(duì)系統(tǒng)、分布計(jì)算等很多知識(shí)知識(shí)才能夠做它的開(kāi)發(fā)和部署。