2012年,大數(shù)據(jù)成為絕對(duì)的焦點(diǎn)。數(shù)據(jù)對(duì)于企業(yè)而言,是一種重要的戰(zhàn)略資產(chǎn),誰(shuí)能把握這一機(jī)遇并迅速行動(dòng)起來(lái),就能在未來(lái)的競(jìng)爭(zhēng)中占得先機(jī)。管理咨詢(xún)公司麥肯錫認(rèn)為,數(shù)據(jù)逐漸成為重要的生產(chǎn)因素,人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。大數(shù)據(jù)將會(huì)創(chuàng)造一個(gè)新的經(jīng)濟(jì)領(lǐng)域,該領(lǐng)域的全部任務(wù)就是將信息或數(shù)據(jù)轉(zhuǎn)化為經(jīng)濟(jì)利益。
在過(guò)去的一年里,大數(shù)據(jù)給IT業(yè)界帶來(lái)新的活力,新產(chǎn)品和解決方案層出不窮。針對(duì)大數(shù)據(jù)時(shí)代的新機(jī)遇、新挑戰(zhàn),IT168近期展開(kāi)大數(shù)據(jù)應(yīng)用專(zhuān)項(xiàng)調(diào)查,目的是通過(guò)調(diào)查結(jié)果揭示大數(shù)據(jù)時(shí)代下數(shù)據(jù)管理與分析應(yīng)用產(chǎn)生的變化。這里所謂的數(shù)據(jù)的管理與分析應(yīng)用,具體來(lái)說(shuō)就是數(shù)據(jù)庫(kù)及其他數(shù)據(jù)管理軟件、數(shù)據(jù)挖掘和數(shù)據(jù)分析產(chǎn)品,以及商業(yè)智能工具。
調(diào)查主要結(jié)論:
1.企業(yè)用戶(hù)每月新增數(shù)據(jù)在500G以上的,占到所有被調(diào)查者的16.67%,新增數(shù)據(jù)規(guī)模還未達(dá)到企業(yè)無(wú)法掌控的程度。
2.企業(yè)用戶(hù)認(rèn)為當(dāng)前最困擾的兩個(gè)問(wèn)題是數(shù)據(jù)讀寫(xiě)瓶頸和數(shù)據(jù)類(lèi)型多樣化。
3.關(guān)于數(shù)據(jù)挖掘與數(shù)據(jù)分析應(yīng)用,企業(yè)用戶(hù)最擔(dān)心的是分析不準(zhǔn)確和分析速度慢。
4.Apache Hadoop的普及水平超出想象,其比例占到所有數(shù)據(jù)應(yīng)用服務(wù)商的9.01%,排名第四。
5. 56.31%的企業(yè)用戶(hù)對(duì)大數(shù)據(jù)的投入小于50萬(wàn)元,仍處于初級(jí)階段。
6.大數(shù)據(jù)的部署還處在初級(jí)規(guī)模,潛力巨大,0-5個(gè)節(jié)點(diǎn)的企業(yè)用戶(hù)比例為40.54%。
7.分布式存儲(chǔ)與計(jì)算、內(nèi)存數(shù)據(jù)庫(kù)和云數(shù)據(jù)庫(kù)成為用戶(hù)最關(guān)注的三大新技術(shù)。
一、調(diào)查背景介紹
2012-2013中國(guó)IT技術(shù)趨勢(shì)大調(diào)查活動(dòng)于2012年10月16日啟動(dòng),歷經(jīng)1個(gè)月的時(shí)間。在線(xiàn)調(diào)查期間,受到了來(lái)自ITPUB、ChinaUnix(以下簡(jiǎn)稱(chēng)CU)以及其它合作網(wǎng)站的網(wǎng)友的極大關(guān)注和積極參與。目前調(diào)查已經(jīng)完滿(mǎn)結(jié)束,所有的數(shù)據(jù)都在后臺(tái)整理和統(tǒng)計(jì)之中。本次網(wǎng)上調(diào)查共回收調(diào)查問(wèn)卷17,101份問(wèn)卷,其中合格問(wèn)卷為14,522份。從整體上看,今年的調(diào)查更專(zhuān)注,無(wú)論從數(shù)量上還是質(zhì)量上都較去年有比較大的提高。
本次調(diào)查的內(nèi)容涉及:企業(yè)信息化、桌面虛擬化、Hadoop架構(gòu)、下一代防火墻、BYOD、IT運(yùn)維和大數(shù)據(jù)應(yīng)用等7方面的研究成果,這些將最終形成《2012-2013年IT技術(shù)應(yīng)用趨勢(shì)調(diào)研報(bào)告》,并將整合到《2012-2013中國(guó)IT應(yīng)用技術(shù)藍(lán)皮書(shū)》中,于2013年4月份第四屆數(shù)據(jù)庫(kù)技術(shù)大會(huì)上對(duì)外發(fā)布。
作為2012-2013中國(guó)IT技術(shù)趨勢(shì)大調(diào)查活動(dòng)的一個(gè)重要組成部分,大數(shù)據(jù)應(yīng)用調(diào)查共收集有效問(wèn)卷2221份,被調(diào)查者所屬行業(yè)和企業(yè)規(guī)模如下圖所示:
▲被調(diào)查者所屬行業(yè)
由上圖可以看出,參與此次調(diào)查的用戶(hù)幾乎遍布了所有行業(yè),其中人數(shù)最多的是三個(gè)行業(yè)是IT業(yè)、互聯(lián)網(wǎng)和制造業(yè),分別占到25.68%、20.72%和12.16%。其次是電信、金融、教育科研和醫(yī)療行業(yè)的用戶(hù),而零售、能源和物流的人群相對(duì)較少。
▲被調(diào)查者所在企業(yè)的規(guī)模
從企業(yè)規(guī)模來(lái)看,1000人以上的大中型企業(yè)占據(jù)主流地位,為總體被調(diào)查者的43.59%。而100-999人的中小企業(yè),即上圖中100-249人、250-499人和500-999人的總和更是超過(guò)被調(diào)查者總數(shù)的一半,小微型企業(yè)在本次調(diào)查中所占比例較少。
本次調(diào)查的主題是大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)從其概念上講,包括四個(gè)關(guān)鍵特性,即海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(velocity)、多樣的數(shù)據(jù)類(lèi)型(variety)和巨大的數(shù)據(jù)價(jià)值(value)。作為最基礎(chǔ)的數(shù)據(jù)規(guī)模,參與調(diào)查的人員所在企業(yè)每月新增數(shù)據(jù)規(guī)模如下圖所示:
▲被調(diào)查者所在企業(yè)每月新增的數(shù)據(jù)規(guī)模
被調(diào)查者所在企業(yè)每月新增數(shù)據(jù)規(guī)模在0-10G的占到26.13%,11-100G的占到33.33%,101-500G的占到23.87%,500G以上的占到16.67%。從這個(gè)數(shù)字可以看出企業(yè)目前的數(shù)據(jù)增長(zhǎng)規(guī)模不斷上漲,但還未達(dá)到企業(yè)無(wú)法掌控的程度。每月新增數(shù)據(jù)規(guī)模在500G以上的用戶(hù)多來(lái)自互聯(lián)網(wǎng)和電信行業(yè),傳統(tǒng)企業(yè)數(shù)據(jù)增長(zhǎng)量基本保持在500G以下的水平。
但未來(lái)數(shù)據(jù)的漲幅可能會(huì)受到社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng)的影響,非結(jié)構(gòu)化數(shù)據(jù)的比例逐漸增加,導(dǎo)致總數(shù)據(jù)量的暴漲。根據(jù)IDC今年一項(xiàng)研究顯示,未來(lái)10年全球數(shù)據(jù)量將以40%的速度增長(zhǎng),到2020年將達(dá)到35ZB(Zettabyte),其中80%為非結(jié)構(gòu)化數(shù)據(jù)。然而這僅僅是個(gè)開(kāi)始,未來(lái)數(shù)據(jù)量將達(dá)到什么級(jí)別,我們無(wú)法想象。
二、企業(yè)大數(shù)據(jù)需求分析
對(duì)于企業(yè)而言,部署大數(shù)據(jù)解決方案有兩個(gè)前提:一是有部署的需求;二是有部署的條件。部署的需求是指企業(yè)現(xiàn)有數(shù)據(jù)系統(tǒng)架構(gòu)能否滿(mǎn)足數(shù)據(jù)管理與分析的需求;部署的條件是指企業(yè)是否有能力部署,以及企業(yè)內(nèi)外部環(huán)境是否適合部署大數(shù)據(jù)解決方案。首先來(lái)看一下部署的需求:
▲被調(diào)查者認(rèn)為企業(yè)數(shù)據(jù)系統(tǒng)架構(gòu)存在的問(wèn)題
針對(duì)企業(yè)的數(shù)據(jù)系統(tǒng)架構(gòu),被調(diào)查者認(rèn)為運(yùn)營(yíng)成本過(guò)高、資源利用率低、應(yīng)用部署過(guò)于復(fù)雜和擴(kuò)展性差這四方面的問(wèn)題幾乎同等重要,其中運(yùn)營(yíng)成本過(guò)高以27.74%成為被調(diào)查者眼中企業(yè)數(shù)據(jù)系統(tǒng)架構(gòu)最嚴(yán)重的問(wèn)題。因此,如果企業(yè)部署新的大數(shù)據(jù)解決方案,就應(yīng)摒棄原系統(tǒng)中的問(wèn)題,或者改良系統(tǒng)架構(gòu),或者推倒重來(lái)。
▲被調(diào)查者所在企業(yè)面臨的數(shù)據(jù)技術(shù)難題
在大數(shù)據(jù)的影響下,現(xiàn)有數(shù)據(jù)系統(tǒng)架構(gòu)的問(wèn)題日益凸顯,在企業(yè)面臨的數(shù)據(jù)處理技術(shù)挑戰(zhàn)的調(diào)查中,23.87%的被調(diào)查者認(rèn)為數(shù)據(jù)讀寫(xiě)瓶頸是最大的技術(shù)挑戰(zhàn),20.16%選擇了數(shù)據(jù)類(lèi)型多樣化,16.26%選擇了存儲(chǔ)壓力,16.26%選擇了系統(tǒng)性能瓶頸。從排名前三位的技術(shù)挑戰(zhàn)中可以看出,大數(shù)據(jù)中快速的數(shù)據(jù)流轉(zhuǎn)(velocity)和多樣的數(shù)據(jù)類(lèi)型(variety)成為最困擾企業(yè)用戶(hù)的兩個(gè)關(guān)鍵特性,同樣也是最亟待解決的關(guān)鍵問(wèn)題。
▲被調(diào)查者所在企業(yè)數(shù)據(jù)挖掘和分析面臨的問(wèn)題
關(guān)于數(shù)據(jù)挖掘與分析應(yīng)用,29.40%的被調(diào)查者認(rèn)為這些應(yīng)用最大的問(wèn)題是分析不準(zhǔn)確,21.36%的被調(diào)查者選擇了分析速度慢,18.34%選擇了價(jià)格昂貴。從這三個(gè)方面來(lái)看,用戶(hù)最擔(dān)心的還是企業(yè)花錢(qián)部署數(shù)據(jù)挖掘與分析類(lèi)應(yīng)用,卻不能通過(guò)分析做出正確的決策。
分析的速度也是一個(gè)重要的問(wèn)題。隨著企業(yè)數(shù)據(jù)量越來(lái)越大,進(jìn)行一次分析所用的時(shí)間也越來(lái)越長(zhǎng)。起初企業(yè)總是利用下班時(shí)間跑報(bào)表,但這種方式越來(lái)越不能滿(mǎn)足實(shí)時(shí)決策的需求,常常會(huì)錯(cuò)過(guò)商機(jī)。因此從軟硬件角度優(yōu)化分析速度,即是企業(yè)經(jīng)營(yíng)決策的需求,又是數(shù)據(jù)分析產(chǎn)品新的考察指標(biāo)。
三、企業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀及規(guī)劃
大數(shù)據(jù)雖然剛剛興起,但數(shù)據(jù)在企業(yè)中一直處于核心地位,傳統(tǒng)的數(shù)據(jù)產(chǎn)品,如數(shù)據(jù)庫(kù)、報(bào)表系統(tǒng)等,在企業(yè)中部署運(yùn)行多年,為企業(yè)的經(jīng)營(yíng)決策貢獻(xiàn)巨大。本調(diào)查對(duì)企業(yè)用戶(hù)數(shù)據(jù)產(chǎn)品應(yīng)用現(xiàn)狀、大數(shù)據(jù)部署現(xiàn)狀和規(guī)劃進(jìn)行摸底,首先來(lái)看一下企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商排名:
▲被調(diào)查者所在企業(yè)數(shù)據(jù)處理產(chǎn)品的服務(wù)商
由上圖可以看出,企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商,排在前六位的分別是Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle以絕對(duì)的優(yōu)勢(shì)拔得頭籌,可見(jiàn)其在數(shù)據(jù)庫(kù)、數(shù)據(jù)分析和大數(shù)據(jù)方面的地位。
值得一提的是Apache Hadoop的應(yīng)用比例已達(dá)到所有被調(diào)查者的9.01%,排名第四。Hadoop的普及水平已超出我們的想象,成為繼Oracle、IBM和Microsoft之后又一主流平臺(tái)產(chǎn)品。但Hadoop不是萬(wàn)能的,其仍存在局限性,針對(duì)結(jié)構(gòu)化數(shù)據(jù)的管理,還應(yīng)選用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)及其他數(shù)據(jù)管理產(chǎn)品。
▲被調(diào)查者所在企業(yè)大數(shù)據(jù)投入情況
關(guān)于企業(yè)在大數(shù)據(jù)領(lǐng)域的投入問(wèn)題,28.83%的被調(diào)查者選擇20-49.9萬(wàn)元,27.48%的被調(diào)查者選擇0-19.9萬(wàn)元,17.57%的被調(diào)查者選擇50-99.9萬(wàn)元,即56.31%的企業(yè)用戶(hù)對(duì)大數(shù)據(jù)的投入小于50萬(wàn)元。另外,150萬(wàn)元以上的只占13.96%。由此可見(jiàn),企業(yè)對(duì)于大數(shù)據(jù)的投入仍處于初級(jí)階段,并且以Hadoop和NoSQL為代表的大數(shù)據(jù)基礎(chǔ)設(shè)施都屬于開(kāi)源產(chǎn)品,硬件方面也可使用廉價(jià)的PC服務(wù)器,所以投入并不高。
▲被調(diào)查者所在企業(yè)部署開(kāi)源大數(shù)據(jù)解決方案的計(jì)劃
如前文所述,Hadoop、NoSQL這樣的開(kāi)源大數(shù)據(jù)解決方案能夠節(jié)省資源、提高系統(tǒng)利用率,是性?xún)r(jià)比極高的選擇。由上圖可知,19.82%的企業(yè)用戶(hù)正在使用開(kāi)源大數(shù)據(jù)技術(shù),22.97%的企業(yè)用戶(hù)計(jì)劃于1年內(nèi)部署,9.91%計(jì)劃于2年內(nèi)部署,沒(méi)有相關(guān)計(jì)劃和不確定的人群占到47.29%。由此看出,Hadoop等開(kāi)源大數(shù)據(jù)技術(shù)相當(dāng)熱門(mén),已經(jīng)有至少52.71%的企業(yè)用戶(hù)已經(jīng)或計(jì)劃部署相關(guān)解決方案。
▲被調(diào)查者所在企業(yè)大數(shù)據(jù)的部署規(guī)模
從被調(diào)查者所在企業(yè)考慮或已經(jīng)部署的大數(shù)據(jù)節(jié)點(diǎn)來(lái)看,選擇0-5個(gè)節(jié)點(diǎn)的為40.54%,6-10個(gè)節(jié)點(diǎn)的為22.07%,11-20個(gè)節(jié)點(diǎn)的為16.67%,21-50個(gè)節(jié)點(diǎn)的為10.81%,51-100個(gè)節(jié)點(diǎn)的為2.70%,而101個(gè)以上節(jié)點(diǎn)的為7.21%。由此可見(jiàn),大數(shù)據(jù)的部署還處在初級(jí)規(guī)模,大多數(shù)企業(yè)還未部署,或部署少量節(jié)點(diǎn)。相信隨著數(shù)據(jù)量的不斷增加,大數(shù)據(jù)相關(guān)的節(jié)點(diǎn)規(guī)模會(huì)不斷增加。
四、企業(yè)大數(shù)據(jù)應(yīng)用選型依據(jù)
既滿(mǎn)足大數(shù)據(jù)的部署需求,又滿(mǎn)足大數(shù)據(jù)的部署條件的企業(yè)在選型時(shí)主要考慮哪些因素?選擇大數(shù)據(jù)產(chǎn)品時(shí)需要具備哪些關(guān)鍵特性?對(duì)服務(wù)商又有哪些要求呢?下面的調(diào)查結(jié)果將給出答案:
▲被調(diào)查者所在企業(yè)做數(shù)據(jù)產(chǎn)品選型時(shí)考慮的因素
由上圖可以看出,“了解同行企業(yè)應(yīng)用”排名第一,占32.44%;選擇“進(jìn)行數(shù)據(jù)測(cè)試”的比例為23.32%,緊隨其后,排在第三位的是“訪問(wèn)相關(guān)軟件公司”,占22.52%;另外觀看軟件演示和訪問(wèn)軟件典型用戶(hù)也占據(jù)一定比例。從排在前三位的因素可以看出,企業(yè)更愿意與同行業(yè)的競(jìng)爭(zhēng)對(duì)手比較,如果同行業(yè)中的優(yōu)秀企業(yè)部署了相關(guān)應(yīng)用,其他企業(yè)也會(huì)跟風(fēng)而上。
▲被調(diào)查者關(guān)注的數(shù)據(jù)產(chǎn)品特性
在數(shù)據(jù)產(chǎn)品選型時(shí),用戶(hù)最關(guān)注的是產(chǎn)品的哪些特性呢?有22.90%的被調(diào)查者選擇“產(chǎn)品的易用性”,18.53%的被調(diào)查者選擇“產(chǎn)品的價(jià)格”,12.76%選擇“產(chǎn)品服務(wù)商品牌”。其他選項(xiàng)中“是否兼容不同應(yīng)用”、“產(chǎn)生的價(jià)值”和“能否支持?jǐn)?shù)據(jù)分析”緊隨其后。從調(diào)查結(jié)果中可以看出,數(shù)據(jù)產(chǎn)品的易用性是用戶(hù)最關(guān)注的問(wèn)題,因此界面簡(jiǎn)單、人性化、學(xué)習(xí)曲線(xiàn)低的應(yīng)用更受歡迎。另外,比起服務(wù)商的品牌效應(yīng),產(chǎn)品的性?xún)r(jià)比似乎更加重要。
▲被調(diào)查者所在企業(yè)選擇服務(wù)商時(shí)考慮的因素
在選擇數(shù)據(jù)產(chǎn)品服務(wù)商時(shí),用戶(hù)最看重的是性?xún)r(jià)比、穩(wěn)定性,所占比例達(dá)到39.76%;其次是該服務(wù)商在同行業(yè)中的經(jīng)驗(yàn),占23.41%;另外現(xiàn)有系統(tǒng)升級(jí)(即采用原系統(tǒng)服務(wù)商)也是企業(yè)選擇服務(wù)商的考慮因素之一。相比這些,品牌效應(yīng)似乎不那么重要,這也同樣印證了前面的調(diào)查結(jié)果。由此可見(jiàn),企業(yè)在選擇服務(wù)商時(shí),最主要考慮的因素還是性?xún)r(jià)比和穩(wěn)定性,在部署的過(guò)程中的經(jīng)驗(yàn)和能力也很重要。
五:企業(yè)大數(shù)據(jù)應(yīng)用趨勢(shì)分析
此次調(diào)查的最后一項(xiàng)是了解被調(diào)查者對(duì)大數(shù)據(jù)應(yīng)用趨勢(shì)的分析,主要分為兩個(gè)方面的內(nèi)容,一是數(shù)據(jù)管理的新技術(shù)預(yù)測(cè);二是商業(yè)智能的發(fā)展趨勢(shì)。通過(guò)對(duì)技術(shù)趨勢(shì)的調(diào)查,了解被調(diào)查者的真實(shí)需求。
▲被調(diào)查者關(guān)注的數(shù)據(jù)管理新技術(shù)
如上圖所示,分布式存儲(chǔ)與計(jì)算成為最受關(guān)注的數(shù)據(jù)管理新技術(shù),比例達(dá)到29.86%;其次是內(nèi)存數(shù)據(jù)庫(kù)技術(shù),占到23.30%;云數(shù)據(jù)庫(kù)排名第三,比例為16.29%。此外,列式數(shù)據(jù)庫(kù)技術(shù)、NoSQL也獲得較多關(guān)注。從調(diào)查結(jié)果來(lái)看,以Hadoop為代表的分布式存儲(chǔ)與計(jì)算已成為人們心目中大數(shù)據(jù)的關(guān)鍵技術(shù)。以SAP HANA為代表的內(nèi)存數(shù)據(jù)庫(kù)技術(shù)和以SQL Azure為代表的云數(shù)據(jù)庫(kù)技術(shù),也將成為占據(jù)重要地位的數(shù)據(jù)管理創(chuàng)新平臺(tái)。
▲被調(diào)查者如何看待商業(yè)智能的未來(lái)
對(duì)于商業(yè)智能未來(lái)的趨勢(shì)預(yù)測(cè),調(diào)查顯示排在前三位的是豐富的挖掘模型、實(shí)時(shí)的分析、精準(zhǔn)的特定目的分析,其比例分別為27.22%、19.88%和19.11%。其后是社交網(wǎng)絡(luò)分析、云端服務(wù)和移動(dòng)BI。由此看出人們期待商業(yè)智能應(yīng)用能夠在這些方面做出改變。
六、總結(jié)
本次調(diào)查針對(duì)大數(shù)據(jù)的應(yīng)用現(xiàn)狀和前景展開(kāi),由調(diào)查結(jié)果可以看出,目前國(guó)內(nèi)大數(shù)據(jù)的應(yīng)用還處于初級(jí)階段。大多數(shù)企業(yè)已經(jīng)意識(shí)到大數(shù)據(jù)蘊(yùn)含的商業(yè)價(jià)值,并開(kāi)始部署或者計(jì)劃部署大數(shù)據(jù)解決方案。而大數(shù)據(jù)的部署目前還停留在基礎(chǔ)設(shè)施建設(shè)層面,應(yīng)用還不成熟。未來(lái)隨著大數(shù)據(jù)基礎(chǔ)設(shè)施的不斷完善,上層應(yīng)用也會(huì)逐漸完善,挖掘更多企業(yè)價(jià)值。