薛貴榮介紹,經(jīng)過三年的發(fā)展,阿里云打造成了完全自主研發(fā)的大規(guī)模分布式計(jì)算系統(tǒng)——飛天。該系統(tǒng)除了MapReduce之外,還支持最廣泛的多種編程模型。而且,阿里云的技術(shù)人員在這個同一平臺之上實(shí)現(xiàn)了數(shù)據(jù)存儲、彈性計(jì)算、搜索等多項(xiàng)功能。而這種功能,除了阿里云,世界上也只有Google能夠做到。而阿里云的戰(zhàn)略,我們也可以解讀為Amazon+Google并有所超越,用Google模式的技術(shù)去做Amazon模式的運(yùn)營。
結(jié)合當(dāng)前的Hadoop熱潮,或許有讀者會感到困惑,費(fèi)了半天勁自己研發(fā)了一個大數(shù)據(jù)平臺,為何不直接使用Hadoop呢?對此問題,阿里云有自己的看法。阿里云總裁王堅(jiān)曾經(jīng)說:“Hadoop在離線大數(shù)據(jù)處理上很有價值,但它無法解決我們公司公共云計(jì)算服務(wù)的問題。因?yàn)槲覀円呀?jīng)上線的云服務(wù)已遠(yuǎn)遠(yuǎn)超出Hadoop的能力,這和公司的定位有關(guān)?,F(xiàn)在,飛天已經(jīng)很好地支持了阿里云的各項(xiàng)業(yè)務(wù),其中包括大數(shù)據(jù)處理,在這方面,飛天實(shí)際已經(jīng)超越了Hadoop。”
薛貴榮也表示,如果沒有一個專業(yè)性較強(qiáng)的Hadoop團(tuán)隊(duì)去維護(hù),Hadoop的能力上升會受到限制。不管如何,在經(jīng)歷了質(zhì)疑、阻礙之后,飛天成功了。而之后,飛天將會在阿里云技術(shù)團(tuán)隊(duì)的維護(hù)下,繼續(xù)擴(kuò)充自身的計(jì)算能力,提供更加廣泛的大數(shù)據(jù)處理服務(wù)。
談到當(dāng)前的大數(shù)據(jù)問題,薛貴榮總結(jié)了以下四個經(jīng)驗(yàn)與讀者進(jìn)行分享:
第一,就是云計(jì)算平臺的建設(shè)。對于大數(shù)據(jù)而言,后端的處理能力是基礎(chǔ),這也是阿里云最近三年一直致力在做的事情。以搜索業(yè)務(wù)為例,要想把全世界的萬億級別的網(wǎng)頁全部索引一遍,單單依靠一臺機(jī)器去處理是完全不可能實(shí)現(xiàn)的。因此,對于大數(shù)據(jù)的處理平臺來說,如何將幾千、幾萬臺的機(jī)器做成一個集群是最為重要的事情。這種大規(guī)模的分布式計(jì)算系統(tǒng)是飛天系統(tǒng)的核心。
薛貴榮介紹,飛天從第一行代碼開始就是自己寫的,目前這個分布式計(jì)算模式也在積極與ISV進(jìn)行合作,以便能夠?yàn)槠渌袠I(yè)的用戶提供一種“自主”的大數(shù)據(jù)處理工具。
第二,薛貴榮表示,大數(shù)據(jù)平臺需要有智能化的技術(shù)。他以“命題作文”為例,大數(shù)據(jù)平臺不能是根據(jù)問題去尋找答案,而是應(yīng)該智能地向用戶提供有價值的信息。以IBM的機(jī)器人沃森為例,他能夠回答非固定的問題,后端需要的是一個強(qiáng)大的分析系統(tǒng)。目前在人工智能領(lǐng)域的深度學(xué)習(xí)、自學(xué)習(xí)以及終生學(xué)習(xí)等都取得一些突破性的進(jìn)展,值得去嘗試。
第三,是成本問題。薛貴榮表示,大數(shù)據(jù)不能成為一個燒錢的項(xiàng)目,所以對于用戶而言,成本很重要,因而在阿里云的集群中全部采用了價格比較低廉的PC服務(wù)器。這也是大數(shù)據(jù)與云計(jì)算相呼應(yīng)的地方。云計(jì)算可以為大數(shù)據(jù)的處理提供一個彈性、低成本的平臺,而大數(shù)據(jù)又促進(jìn)了云計(jì)算的發(fā)展。
總而言之,對于一個強(qiáng)大的大數(shù)據(jù)分析平臺來講,智能化、彈性、集群的擴(kuò)展能力都必不可少。但最基礎(chǔ)的部分,底層的IT基礎(chǔ)設(shè)施必須足夠強(qiáng)大,才能夠應(yīng)付上層的這么許多應(yīng)用。因此包括設(shè)備提供商、芯片制造商也都開始在大數(shù)據(jù)領(lǐng)域發(fā)力。