中國(guó)IDC圈4月27日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注。現(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開(kāi)。在27日大數(shù)據(jù)技術(shù)與產(chǎn)品創(chuàng)新分論壇中星環(huán)信息科技的創(chuàng)始人&CTO孫元浩分享了在互聯(lián)網(wǎng)+時(shí)代,Hadoop推動(dòng)現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的深刻變革。
星環(huán)信息科技的創(chuàng)始人&CTO孫元浩
以下是孫元浩演講實(shí)錄:
孫元浩:Hadoop已經(jīng)經(jīng)過(guò)了10年的發(fā)展,從2006年到今天剛好是10年時(shí)間。這10年當(dāng)中,Hadoop從雅虎一家開(kāi)源的技術(shù)平臺(tái),逐漸的被更多的互聯(lián)網(wǎng)公司使用,到今天在很多的企業(yè)當(dāng)中在使用這個(gè)新的技術(shù),我們也見(jiàn)證了這個(gè)技術(shù)的飛速發(fā)展。它的應(yīng)用的廣度也超出了原來(lái)Hadoop設(shè)計(jì)的想像,早期的Hadoop是為了仿造Google的搜索引擎建造的,今天我們看到Hadoop的應(yīng)用已經(jīng)開(kāi)始深入到企業(yè)的各個(gè)應(yīng)用領(lǐng)用當(dāng)中。當(dāng)時(shí)我估計(jì)在2016年、2017年是新技術(shù)戰(zhàn)略的轉(zhuǎn)折點(diǎn),意味著這個(gè)技術(shù)已經(jīng)到達(dá)了一定程度,在各個(gè)領(lǐng)域當(dāng)中可能會(huì)有飛速的應(yīng)用,可能會(huì)比去年和前年有一個(gè)數(shù)量級(jí)的提升。
我今天首先會(huì)介紹一下我們公司,技術(shù)人員可能對(duì)我們公司很了解,很多其他行業(yè)的朋友不一定了解我們公司。我們是一家專(zhuān)門(mén)做Hadoop技術(shù)的公司,我們從2013年成立到現(xiàn)在有3年時(shí)間,發(fā)展還是比較快的。我們專(zhuān)注在底層開(kāi)發(fā)下面,我們開(kāi)發(fā)的代碼量接近1千萬(wàn)行,我們的產(chǎn)品加起來(lái)將近3千萬(wàn)行。在去年下半年被Gartner提到我們公司,我們也是全球四大Hadoop廠商之一,我們今天也有幸成為Gartner數(shù)據(jù)倉(cāng)模擬象限的一家中國(guó)公司。描述了哪些產(chǎn)品具有哪些特點(diǎn)。現(xiàn)在大家可以看到,這邊大部分都是一些大型公司,我們被放在了最右邊的位置,表示國(guó)外媒體對(duì)于我們技術(shù)的領(lǐng)先性和完備性還是有高度認(rèn)可的,但是我們的規(guī)模會(huì)比他們低。目前來(lái)講,我們客戶的數(shù)量還是比較多的。
下面我們來(lái)介紹一下Hadoop的應(yīng)用。剛才講到,我們認(rèn)為Hadoop未來(lái)一段時(shí)間會(huì)進(jìn)入戰(zhàn)略整合點(diǎn),被客戶接受的速度會(huì)迅速提升。最左邊是一個(gè)報(bào)告,是收費(fèi)報(bào)告,統(tǒng)計(jì)了美國(guó)市場(chǎng)上面Hadoop應(yīng)用的分類(lèi),大部分Hadoop用戶主要是60%的客戶,20%的客戶是交互式BI的,用于報(bào)表式工具跟Hadoop對(duì)接,還有國(guó)內(nèi)的可視化公司也在跟Hadoop對(duì)接。在美國(guó)有幾十家這樣的公司專(zhuān)注做數(shù)據(jù)分析和可視化,所以這個(gè)應(yīng)用場(chǎng)景大概有25%。還有6%的客戶是做輕量級(jí)的應(yīng)用,主要是使用了Hbase分布式系統(tǒng)來(lái)做數(shù)據(jù)的查詢,這個(gè)比例不是太高,有6%。還有4%的客戶是用來(lái)做文檔數(shù)據(jù)庫(kù),5%的客戶是用來(lái)做流處理。
右邊這場(chǎng)圖是我們星環(huán)從幾百個(gè)客戶當(dāng)中統(tǒng)計(jì)出來(lái)的分類(lèi),有一定的代表性,但是不是全部的數(shù)據(jù)。從中可以看到中國(guó)市場(chǎng)和美國(guó)市場(chǎng)有比較大的不同,這個(gè)數(shù)據(jù)我們提交上去,他們已經(jīng)把我們的數(shù)據(jù)放到他們的報(bào)告當(dāng)中去了。我們看到有56%的客戶做數(shù)據(jù)倉(cāng)庫(kù),我們做數(shù)據(jù)倉(cāng)庫(kù)有一定的優(yōu)勢(shì),我們非常完整,支持分布式處理,支持這個(gè)存儲(chǔ)過(guò)程,所以有一部分客戶已經(jīng)從數(shù)據(jù)庫(kù)直接牽引到我們的上面來(lái)。這種新的業(yè)務(wù)模式在用到國(guó)內(nèi)的時(shí)候還不是這么快,有一類(lèi)是比較特殊的,就是我們做OITP用的,做簡(jiǎn)單快速查詢的應(yīng)用比較多,這其實(shí)反應(yīng)了我們國(guó)家的數(shù)據(jù)量比美國(guó)的客戶大很多,我們中國(guó)一個(gè)省的用戶就是美國(guó)AT&T全國(guó)的用戶,這一塊反而有一批客戶在用這種簡(jiǎn)單的數(shù)據(jù)庫(kù),2%的客戶在做文檔數(shù)據(jù)庫(kù),這也反映了在美國(guó)NoSQL有4%的使用率。有一個(gè)不同的地方,流處理這一塊在中國(guó)的應(yīng)用場(chǎng)景比較多,有10%的客戶,解決我們有10%在做流處理,主要是分布在實(shí)時(shí)的金融交易、傳感器網(wǎng)絡(luò)和工業(yè)4.0里面,2008年、2009年我們國(guó)家建立了大量的傳感器,包括物聯(lián)網(wǎng),這一塊使得我們?cè)诳蛻舢?dāng)中有比較多的在用這種做數(shù)據(jù)處理,這也反映了我們國(guó)家的工業(yè)4.0其實(shí)已經(jīng)具備一定的條件了,可能比美國(guó)還要更領(lǐng)先一些。