2012年,如果說有一個(gè)概念比云計(jì)算還要火熱,那無疑就是大數(shù)據(jù)。大數(shù)據(jù)應(yīng)用廣泛,尤其是隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)以及各種傳感網(wǎng)絡(luò)的興起,數(shù)據(jù)爆炸最符合當(dāng)下的特征。如何從數(shù)據(jù)分析中發(fā)現(xiàn)價(jià)值,來指導(dǎo)企業(yè)的日常業(yè)務(wù)決策?大數(shù)據(jù)將給出答案。近日,臺灣精誠集團(tuán)云中心暨Etu品牌負(fù)責(zé)人蔣居裕接受記者采訪時(shí)表示,目前大數(shù)據(jù)還處于發(fā)展的初期,整個(gè)亞洲地區(qū)落后于美國,而美國談大數(shù)據(jù)也僅僅有4、5年的時(shí)間。
剖解大數(shù)據(jù)
在中國談大數(shù)據(jù),更多的停留在數(shù)據(jù)的采集、存儲和處理層面,還缺乏真正的數(shù)據(jù)分析和洞察應(yīng)用案例。蔣居裕表示,大數(shù)據(jù)市場要進(jìn)入比較穩(wěn)健的成長期,需要完成從項(xiàng)目市場進(jìn)到方案市場的跨越,樂觀來看或許2014年可以跨越,或者更晚。從亞洲地區(qū)來看,真正做大數(shù)據(jù)計(jì)算工作的應(yīng)用、項(xiàng)目數(shù)量都還非常少。
剖解大數(shù)據(jù)的價(jià)值和前景,就必須對大數(shù)據(jù)的定義和內(nèi)涵有一個(gè)清晰的了解。目前企業(yè)管理軟件所涉及到的結(jié)構(gòu)化的數(shù)據(jù)只占到傳統(tǒng)企業(yè)里面所有數(shù)據(jù)的15%,剩下的85%來源于廣泛存在于企業(yè)內(nèi)各種信息活動(dòng)、電子商務(wù)、物聯(lián)網(wǎng)、或是外界社交網(wǎng)絡(luò)等領(lǐng)域中的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),這才需要用到這種大數(shù)據(jù)的處理平臺做進(jìn)一步的分析。
一般來說,通過三個(gè)“V”可以更準(zhǔn)確的解讀大數(shù)據(jù):第一個(gè)V是Volume,一定要大到某種程度;第二個(gè)V是Velocity,只有實(shí)時(shí)性,才可以去展現(xiàn)最新的數(shù)據(jù)分析效益;第三個(gè)V是Variety,講的是多重的數(shù)據(jù)格式或數(shù)據(jù)結(jié)構(gòu)。這三個(gè)V合在一起,可以畫一個(gè)三角線,每一個(gè)運(yùn)用場景都可以在這三個(gè)軸上畫一個(gè)橢圓,不同的廠商可能畫出的橢圓形狀不太一樣,這些都是屬于大數(shù)據(jù)要去分析處理的范疇。
不過,蔣居裕認(rèn)為,目前行業(yè)里對大數(shù)據(jù)的理解存在多重誤區(qū),比如大數(shù)據(jù)不是存儲技術(shù),一定是存儲和處理同時(shí)發(fā)生的;二是大數(shù)據(jù)起源于互聯(lián)網(wǎng),但并非僅適用于互聯(lián)網(wǎng)領(lǐng)域,在任何一個(gè)行業(yè)都極具應(yīng)用價(jià)值;三是大數(shù)據(jù)不只是BI,傳統(tǒng)BI擅長處理結(jié)構(gòu)化數(shù)據(jù),對于半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的解決能力并不佳。不走出這些誤區(qū)的困擾,很容易在大數(shù)據(jù)中迷失。
Hadoop一體機(jī)
由于大多數(shù)的行業(yè)及企業(yè)對大數(shù)據(jù)的需求并不清楚,因此推動(dòng)大數(shù)據(jù)應(yīng)用的落地,僅靠單一項(xiàng)目的形式,很難實(shí)現(xiàn)快速的普及和應(yīng)用。大數(shù)據(jù)一體機(jī)Etu Appliance的出現(xiàn),能夠?yàn)槠髽I(yè)提供從軟件、硬件到數(shù)據(jù)分析、處理的一體化的解決方案,標(biāo)準(zhǔn)的產(chǎn)品化的形式更能促進(jìn)大數(shù)據(jù)的應(yīng)用。因此,在今年年中,精誠集團(tuán)云中心正式在亞洲推出了Etu品牌大數(shù)據(jù)產(chǎn)品,為各個(gè)應(yīng)用場景提供大數(shù)據(jù)的解決方案。
作為Hadoop的一站式產(chǎn)品,Etu Appliance之所以被稱為“Appliance”,是因?yàn)檫@是款一體機(jī)產(chǎn)品,既不是硬件,也不是軟件,而是軟硬結(jié)合、高度優(yōu)化的設(shè)備。Etu Appliance的用戶不需要具備很高的Hadoop技術(shù),就能夠快速部署,計(jì)算和存儲一體,十分鐘之內(nèi)能夠部署100個(gè)節(jié)點(diǎn)。這大大縮短了企業(yè)應(yīng)用大數(shù)據(jù)的周期。
而最小的Etu Appliance集群架構(gòu)包括一個(gè)主節(jié)點(diǎn),兩個(gè)工作節(jié)點(diǎn)。數(shù)據(jù)和任務(wù)都是運(yùn)行在工作節(jié)點(diǎn)上的,主節(jié)點(diǎn)負(fù)責(zé)調(diào)度整個(gè)集群的資源分配。當(dāng)數(shù)據(jù)量越來越大,當(dāng)前架構(gòu)和容量無法處理的時(shí)候,只需加一個(gè)工作節(jié)點(diǎn),在已經(jīng)運(yùn)行的集群不停機(jī)的情況下可以直接擴(kuò)容,最多可以擴(kuò)容2000臺左右的規(guī)模。與市場中諸如甲骨文、IBM的大數(shù)據(jù)一體機(jī)產(chǎn)品比,Etu有更好的靈活性,是專門定制的產(chǎn)品,而Oracle產(chǎn)品的通用性缺乏靈活度。
大數(shù)據(jù)應(yīng)用
電商由于對大數(shù)據(jù)的分析更為迫切,數(shù)據(jù)也多集中在非結(jié)構(gòu)化的數(shù)據(jù)層面,因此,是大數(shù)據(jù)應(yīng)用需求最明顯的領(lǐng)域。Etu知意圖就此也發(fā)布了精準(zhǔn)推薦系統(tǒng)Etu Recommender,這是基于大數(shù)據(jù)一體機(jī)的技術(shù),利用分布式云計(jì)算優(yōu)勢,采集大量的用戶行為日志,并針對不同的用戶產(chǎn)生個(gè)性化的推薦,從數(shù)據(jù)采集、分析、到結(jié)果集的呈現(xiàn)完全自動(dòng)化,不需市場人員介入,完全是基于用戶瀏覽及購買的真實(shí)行為產(chǎn)生推薦,同時(shí),基于大數(shù)據(jù)一體機(jī)橫向擴(kuò)容的特性,電商用戶可以隨著流量的成長,隨時(shí)擴(kuò)充系統(tǒng)的計(jì)算與存儲能力。
據(jù)悉,這一產(chǎn)品已在國內(nèi)的電商領(lǐng)域應(yīng)用。蔣居裕向記者透露,除了電商領(lǐng)域外,現(xiàn)在運(yùn)營商可以利用這些大數(shù)據(jù)處理來進(jìn)行非常多的工作,比如說他們想要知道通過3G移動(dòng)網(wǎng)絡(luò)到底這些用戶,不管用的手機(jī)還是用的iPad這種平板電腦,到底都去了哪些地方,看了哪些信息?這個(gè)對運(yùn)營商來講可以做后續(xù)的增值服務(wù)。 對于網(wǎng)絡(luò)或電信設(shè)備的優(yōu)化,設(shè)備是比較昂貴的,如果能夠優(yōu)化,在一定程度上可以去節(jié)省運(yùn)營商的成本。所以這些東西其實(shí)都是大數(shù)據(jù)本身可以去發(fā)揮價(jià)值的地方。