根據(jù)IDC的調(diào)查報(bào)告預(yù)測(cè)到2020年全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB(相當(dāng)于10億塊1TB的硬盤(pán)的容量)。大數(shù)據(jù)浪潮的到來(lái)也為企業(yè)帶來(lái)了新一輪的挑戰(zhàn)。對(duì)于有準(zhǔn)備的企業(yè)來(lái)說(shuō)這無(wú)疑是一座信息金礦,能夠合理的將大數(shù)據(jù)轉(zhuǎn)換為有價(jià)值信息成為未來(lái)企業(yè)的必備技能。恰逢此時(shí),CSDN專(zhuān)門(mén)針對(duì)企業(yè)相關(guān)人員進(jìn)行了大規(guī)模問(wèn)卷調(diào)研,并在數(shù)千份的調(diào)查報(bào)告中總結(jié)出現(xiàn)今企業(yè)大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀。在此我們也將調(diào)研結(jié)果展示與此以供大家參考。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性
首先讓我們先來(lái)了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來(lái)看,信息結(jié)構(gòu)類(lèi)型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒(méi)取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類(lèi)型一直存在,只是其中一種結(jié)構(gòu)類(lèi)型往往主導(dǎo)于其他結(jié)構(gòu):
結(jié)構(gòu)化信息——這種信息可以在關(guān)系數(shù)據(jù)庫(kù)中找到,多年來(lái)一直主導(dǎo)著IT應(yīng)用。這是關(guān)鍵任務(wù)OLTP系統(tǒng)業(yè)務(wù)所依賴(lài)的信息,另外,還可對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)信息進(jìn)行排序和查詢(xún);
半結(jié)構(gòu)化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡(luò)上的信息。半結(jié)構(gòu)化信息是以?xún)?nèi)容為基礎(chǔ),可以用于搜索,這也是谷歌存在的理由;
非結(jié)構(gòu)化信息——該信息在本質(zhì)形式上可認(rèn)為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽(tīng)或被看)。許多大數(shù)據(jù)都是非結(jié)構(gòu)化的,其龐大規(guī)模和復(fù)雜性需要高級(jí)分析工具來(lái)創(chuàng)建或利用一種更易于人們感知和交互的結(jié)構(gòu)。
企業(yè)內(nèi)部大數(shù)據(jù)處理基礎(chǔ)設(shè)施普遍落后
從調(diào)查結(jié)果可以看出,接近50%的企業(yè)服務(wù)器數(shù)量在100臺(tái)以?xún)?nèi),而擁有100至500臺(tái)占據(jù)了22%的比例。500至2000臺(tái)服務(wù)器則占據(jù)剩下28.4%的比例。可以看出面對(duì)大數(shù)據(jù)現(xiàn)今大部分企業(yè)還沒(méi)有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。以現(xiàn)階段企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來(lái)看50%的企業(yè)面臨大數(shù)據(jù)處理的問(wèn)題(中小企業(yè)在面對(duì)大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢(xún)、挖掘的流程)。
但這只是暫時(shí)狀況,“廉價(jià)”服務(wù)器設(shè)施會(huì)隨著企業(yè)業(yè)務(wù)的發(fā)展逐漸被淘汰出歷史的舞臺(tái),在未來(lái)企業(yè)基礎(chǔ)架構(gòu)體系的硬件選用上,多核多路處理器以及SSD等設(shè)備會(huì)成為企業(yè)的首選。Facebook的Open Compute Project就在業(yè)界樹(shù)立了榜樣,Open Compute Project利用開(kāi)源社區(qū)的理念改善服務(wù)器硬件以及機(jī)架的設(shè)計(jì)。其數(shù)據(jù)中心PUE值也是領(lǐng)先與業(yè)內(nèi)的其他對(duì)手。
而在具有大數(shù)據(jù)處理需求的企業(yè)中52.2%的日數(shù)據(jù)生成量在100GB以下,日數(shù)據(jù)生成量100GB到50TB占據(jù)了43.5%,而令人驚訝的是,日數(shù)據(jù)生成量50TB以上也有4.4%的份額。數(shù)據(jù)量持續(xù)的增長(zhǎng),公司將被迫增加基礎(chǔ)設(shè)施的部署。專(zhuān)利費(fèi)用將一直增加,而開(kāi)源技術(shù),則省了這筆一直持續(xù)的專(zhuān)利費(fèi)。對(duì)于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的融合,成了所有人關(guān)心的問(wèn)題。