7月13日在北京亮馬河飯店舉行的第二屆“大數(shù)據(jù)世界論壇” (BDWF 2012)顯示,業(yè)界的數(shù)據(jù)庫(kù)、芯片、存儲(chǔ)和數(shù)據(jù)分析和管理的廠商們,都積極提出了自家的大數(shù)據(jù)解決方案,而大數(shù)據(jù)技術(shù)在金融、證券、電信、互聯(lián)網(wǎng)各行業(yè)的剛性需求明顯,但實(shí)際的應(yīng)用仍處在探索之中。企業(yè)和提供商都不可忽略的是,掘金大數(shù)據(jù)的同時(shí),要如何防范仍存在的風(fēng)險(xiǎn)。
現(xiàn)在應(yīng)對(duì)大數(shù)據(jù),可以以高可用高可靠高可擴(kuò)展性的基礎(chǔ)架構(gòu),和高性能的分析系統(tǒng)來應(yīng)對(duì),然而,談大數(shù)據(jù)的風(fēng)險(xiǎn),談數(shù)據(jù)挖掘,它的效果到底多好?事實(shí)上是需要得到驗(yàn)證的。規(guī)避大數(shù)據(jù)的風(fēng)險(xiǎn),即不能盲目跟風(fēng),特別要明確實(shí)施大數(shù)據(jù)的目標(biāo),要有切實(shí)可行的規(guī)劃,此外要有足夠好的數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)的“第四V”——價(jià)值
數(shù)據(jù)規(guī)模大、處理速度快和數(shù)據(jù)種類繁多(volume, velocity, variability)——這是大數(shù)據(jù)知名的3V特征。不過,現(xiàn)在專家們明確給大數(shù)據(jù)大家上第四個(gè)V——Value,即企業(yè)要實(shí)現(xiàn)的是大數(shù)據(jù)的價(jià)值。
由于3V的存在,第四V的實(shí)現(xiàn),必然需要新的技術(shù),這也是大數(shù)據(jù)概念風(fēng)靡的原因。獲得價(jià)值,需要構(gòu)建一套更靈活、更強(qiáng)力的數(shù)據(jù)管理系統(tǒng),不僅數(shù)據(jù)庫(kù)、數(shù)據(jù)分析技術(shù)要改進(jìn),底層架構(gòu)也需要適時(shí)改變。
微軟亞太研發(fā)集團(tuán)首席技術(shù)官孫博凱認(rèn)為,大數(shù)據(jù)端到端的生命周期,可分成三步:管理數(shù)據(jù)、獲取存儲(chǔ)以及保護(hù)數(shù)據(jù)。大數(shù)據(jù)不僅需要管理數(shù)據(jù),更要獲取數(shù)據(jù)豐富的數(shù)據(jù),不管是關(guān)系型,非關(guān)系型還有流線型,最終從數(shù)據(jù)中得到洞察力。
SAS軟件研究開發(fā)(北京)有限公司總經(jīng)理劉政表示,大數(shù)據(jù)時(shí)代,要求存儲(chǔ)設(shè)備和存儲(chǔ)方式改變,存儲(chǔ)數(shù)據(jù)是為了查詢,但僅查詢,不分析就是極大的浪費(fèi)。而傳統(tǒng)的分析能力不能及時(shí)處理大數(shù)據(jù),也就是說,大數(shù)據(jù)時(shí)代,高性能分析是關(guān)鍵。劉政提出了通過工作量分配到不同機(jī)器的網(wǎng)格計(jì)算、把分析過程放到數(shù)據(jù)庫(kù)內(nèi)的內(nèi)分析和把數(shù)據(jù)和分析方法放到內(nèi)存中執(zhí)行的內(nèi)存分析三種方式,形成大數(shù)據(jù)分析所需要的高性能分析能力。
英特爾(中國(guó))有限公司行業(yè)合作與解決方案部中國(guó)區(qū)總監(jiān)凌琦表示,三個(gè)V之后的value,是對(duì)已有關(guān)系型數(shù)據(jù)分析的充分補(bǔ)充,分析引擎必須有能力分析關(guān)系型和非關(guān)系型的數(shù)據(jù)。他認(rèn)為,傳統(tǒng)SAN、NAS已經(jīng)不適應(yīng)大數(shù)據(jù)的處理,當(dāng)前更需要scale-out存儲(chǔ)架構(gòu),同時(shí)還需要實(shí)時(shí)的數(shù)據(jù)流處理——也就是需要高性能分析能力,這需要高性能分析處理器的支持。
甲骨文大中華區(qū)技術(shù)總經(jīng)理喻思成則認(rèn)為,大數(shù)據(jù)可能只是企業(yè)完整的數(shù)據(jù)處理平臺(tái)的一部分。
NetApp大中華區(qū)技術(shù)及專業(yè)服務(wù)部總監(jiān)何英華提出了一個(gè)與眾不同的ABC——大分析(Analytics)、高帶寬(Banduidth)、大內(nèi)容(Content)。大分析:分析是要對(duì)數(shù)據(jù)有一個(gè)洞見,超大數(shù)據(jù)的實(shí)時(shí) 分析;高帶寬:數(shù)據(jù)一來就要分析結(jié)果,做出報(bào)表;大內(nèi)容:大內(nèi)容是基本上不要丟失任何的東西。
他認(rèn)為,可以采取簡(jiǎn)單的策略,在開發(fā)Hadoop應(yīng)用有實(shí)時(shí)的分析等等。在高帶寬方面有一些video方面要處理,在大內(nèi)容上有一些內(nèi)容。在這三個(gè)方面都有開發(fā)產(chǎn)品去應(yīng)和。
剛需大實(shí)踐乏
廠商們提出了自己的解決思路,行業(yè)企業(yè)用戶則證實(shí)了大數(shù)據(jù)的剛性需求。中國(guó)移動(dòng)研究院首席科學(xué)家楊景指出,建立一個(gè)靈活的車聯(lián)網(wǎng),可以解決當(dāng)前城市發(fā)展越到的堵車等各種問題,國(guó)金證券高級(jí)分析師趙國(guó)棟,中國(guó)人工智能學(xué)會(huì)機(jī)器博弈專委會(huì)副主任劉知青也都提出了實(shí)際的需求,如用來分析商業(yè)公司的前景,用來解決圍棋系統(tǒng)的計(jì)算,等等。