11月8日,截止到2011年底,全球網(wǎng)民數(shù)達(dá)22.67億;截止到2012年6月,中國網(wǎng)民達(dá)5.38億。龐大的網(wǎng)民每時每刻產(chǎn)生大量的數(shù)據(jù),據(jù)統(tǒng)計:每一分鐘全球電子郵件用戶共計發(fā)出2.04億封電子郵件;谷歌會處理200萬次搜索;Facebook用戶會共享68.4萬比特的內(nèi)容……同時,同時,目前用戶在網(wǎng)上不僅僅是資訊,同時用戶發(fā)微博、上傳照片、上傳視頻等,導(dǎo)致數(shù)據(jù)類型呈現(xiàn)多樣性。用戶所產(chǎn)生的數(shù)據(jù)量還將呈現(xiàn)出爆炸式的增長態(tài)勢,大數(shù)據(jù)時代已經(jīng)來臨。
在用戶的數(shù)據(jù)量在成幾何級數(shù)增長的同時,無可否認(rèn)海量用戶數(shù)據(jù)將會創(chuàng)造出巨大的價值,巨大的價值來源于對大數(shù)據(jù)的分析,但從目前來看,大數(shù)據(jù)處理和分析的能力遠(yuǎn)遠(yuǎn)沒有跟上,如何存儲、檢索、清理和分析大數(shù)據(jù)是難題。
在大數(shù)據(jù)儲存和備份方面,許多互聯(lián)網(wǎng)企業(yè)單日數(shù)據(jù)量以出現(xiàn)數(shù)十、數(shù)百TB(1TB=1024GB)速度的增加,而總數(shù)據(jù)量已達(dá)PB(1024TB)等級,其數(shù)據(jù)量已讓傳統(tǒng)的數(shù)據(jù)庫難以儲存大數(shù)據(jù)。同時對企業(yè)來說,數(shù)據(jù)備份是至關(guān)重要的,缺乏數(shù)據(jù)備份可能會到導(dǎo)致企業(yè)毀滅性打擊。目前大數(shù)據(jù)時代數(shù)據(jù)量爆炸式增長增加了備份和恢復(fù)的時間,存儲設(shè)備又是有限的,數(shù)據(jù)備份和恢復(fù)將越來越困難,同時得考慮數(shù)據(jù)儲存和備份如何節(jié)省電力、節(jié)約空間、節(jié)約成本等問題。
在大數(shù)據(jù)分析之前,必須對數(shù)據(jù)進(jìn)行清理,包括檢查數(shù)據(jù)一致性、刪除重復(fù)值、處理無效值和缺失值等,對大數(shù)據(jù)來說,也包括的海量數(shù)據(jù)“噪音”,利用傳統(tǒng)的數(shù)據(jù)分析軟件來清理這些“噪音”,難度較大。同時,需要快速把大數(shù)據(jù)中的核心數(shù)據(jù)抽取出來,高效分析這些核心數(shù)據(jù),需要建立高級分析模型,只有對核心數(shù)據(jù)進(jìn)行復(fù)雜分析,發(fā)現(xiàn)趨勢和隱藏的信息,才能使大數(shù)據(jù)真正發(fā)揮作用,才能讓企業(yè)洞察和發(fā)現(xiàn)商機(jī)。大數(shù)據(jù)挖掘需要軟硬件結(jié)合,這對軟件、硬件和人才提出了較高的挑戰(zhàn)。
另外,大數(shù)據(jù)可視化也是難點。大數(shù)據(jù)可視化就是將大數(shù)據(jù)分析結(jié)果轉(zhuǎn)化為公司能夠使用的信息。只有大數(shù)據(jù)分析結(jié)果通過可視化處理后,非數(shù)據(jù)分析專業(yè)人士能夠充分理解語言、圖表等表述出大數(shù)據(jù)所蘊(yùn)含的信息,才會給公司帶來的價值。大數(shù)據(jù)所包含的數(shù)據(jù)量大,數(shù)據(jù)類型紛雜,數(shù)據(jù)模型復(fù)雜,數(shù)據(jù)結(jié)果抽象,可視化難度也較大。
大數(shù)據(jù)分析專業(yè)人才缺乏。大數(shù)據(jù)時代對數(shù)據(jù)分析師的要求更高,甚至?xí)a(chǎn)生新職位,例如數(shù)據(jù)科學(xué)家,CDO(首席數(shù)據(jù)執(zhí)行官)、數(shù)據(jù)可視化人員和數(shù)據(jù)調(diào)整代理人等,目前來看,大數(shù)據(jù)分析職位沒有具體的從業(yè)標(biāo)準(zhǔn)。但是大數(shù)據(jù)分析師必須要涉足多個領(lǐng)域,至少需要下面四個方面的技能:技術(shù)(軟件和系統(tǒng)等)、數(shù)學(xué)(統(tǒng)計、建模和算法等)、商業(yè)分析(從事領(lǐng)域的相關(guān)知識)和可視化(語言和圖表等),目前一般業(yè)務(wù)用戶分析師或傳統(tǒng)的數(shù)據(jù)分析師僅具備上面一個或兩個技能,并不具備開發(fā)預(yù)言分析應(yīng)用程序模型的技能。
“大數(shù)據(jù)”已經(jīng)降臨,大數(shù)據(jù)所帶的難題也將在探索中得以解決。