挑戰(zhàn)二:數(shù)據(jù)挖掘分析模型建立
步入大數(shù)據(jù)時代,人們紛紛在談?wù)摯髷?shù)據(jù),似乎這已經(jīng)演化為新的潮流趨勢。數(shù)據(jù)比以往任何時候都更加根植于我們生活中的每個角落。我們試圖用數(shù)據(jù)去解決問題、改善福利,并且促成新的經(jīng)濟繁榮。人們紛紛流露出去大數(shù)據(jù)的高期待以及對大數(shù)據(jù)分析技術(shù)的格外看好。然而,關(guān)于大數(shù)據(jù)分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對于大數(shù)據(jù)分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大數(shù)據(jù)分析中的某些重大要件或技術(shù)還不成熟。大數(shù)據(jù)時代下數(shù)據(jù)的海量增長以及缺乏這種大數(shù)據(jù)分析邏輯以及大數(shù)據(jù)技術(shù)的待發(fā)展,正是大數(shù)據(jù)時代下我們面臨的挑戰(zhàn)。
大數(shù)據(jù)的大,一般人認為指的是它數(shù)據(jù)規(guī)模的海量。隨著人類在數(shù)據(jù)記錄、獲取及傳輸方面的技術(shù)革命,造成了數(shù)據(jù)獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態(tài)度或行為的、數(shù)據(jù)有限的小數(shù)據(jù)已然變成了一個巨大的、海量規(guī)模的數(shù)據(jù)包。這其實是一種片面認識。其實,前大數(shù)據(jù)時代也有海量的數(shù)據(jù)集,但由于其維度的單一,以及和人或社會有機活動狀態(tài)的剝離,而使其分析和認識真相的價值極為有限。大數(shù)據(jù)的真正價值不在于它的大,而在于它的全面:空間維度上的多角度、多層次信息的交叉復(fù)現(xiàn);時間維度上的與人或社會有機體的活動相關(guān)聯(lián)的信息的持續(xù)呈現(xiàn)。
另外,要以低成本和可擴展的方式處理大數(shù)據(jù),這就需要對整個IT架構(gòu)進行重構(gòu),開發(fā)先進的軟件平臺和算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發(fā)展起來的Hadoop等大數(shù)據(jù)處理軟件平臺,及其相關(guān)產(chǎn)業(yè)已經(jīng)在美國初步形成。而我國數(shù)據(jù)處理技術(shù)基礎(chǔ)薄弱,總體上以跟隨為主,難以滿足大數(shù)據(jù)大規(guī)模應(yīng)用的需求。如果把大數(shù)據(jù)比作石油,那數(shù)據(jù)分析工具就是勘探、鉆井、提煉、加工的技術(shù)。我國必須掌握大數(shù)據(jù)關(guān)鍵技術(shù),才能將資源轉(zhuǎn)化為價值。應(yīng)該說,要邁過這道坎,開源技術(shù)為我們提供了很好的基礎(chǔ)。
因此,現(xiàn)在已經(jīng)有很多企業(yè)開始意識到,要想真正在Hadoop平臺上做數(shù)據(jù)分析、數(shù)據(jù)挖掘的應(yīng)用,有兩種選擇,要么就是匯聚一個懂數(shù)據(jù)、懂分析、懂編程又要有技巧的技術(shù)團隊來操作,要么就是選擇某家商業(yè)公司推出的成熟的大數(shù)據(jù)平臺。
總而言之,目前盡管計算機智能化有了很大進步,但還只能針對小規(guī)模、有結(jié)構(gòu)或類結(jié)構(gòu)的數(shù)據(jù)進行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中還難以通用。
挑戰(zhàn)三:數(shù)據(jù)開放與隱私的權(quán)衡
數(shù)據(jù)應(yīng)用的前提是數(shù)據(jù)開放,這已經(jīng)是共識。有專業(yè)人士指出,中國人口居世界首位,但2010年中國新存儲的數(shù)據(jù)為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構(gòu)擁有大量數(shù)據(jù)但寧愿自己不用也不愿提供給有關(guān)部門共享,導(dǎo)致信息不完整或重復(fù)投資。2012年中國的數(shù)據(jù)存儲量達到64EB,其中55%的數(shù)據(jù)需要一定程度的保護,然而目前只有不到一半的數(shù)據(jù)得到保護。
下面,我們來看一下美國在數(shù)據(jù)開放方面的做法。美國政府提供政策和經(jīng)費保障,使數(shù)據(jù)信息中心群成為國家信息生產(chǎn)和服務(wù)基地,保障數(shù)據(jù)信息供給不斷,利用網(wǎng)絡(luò)把數(shù)據(jù)和信息最便捷、及時地送到包括科學(xué)家、政府職員、公司職員、學(xué)校師生在內(nèi)所有公民的桌上和家庭中,把全社會帶進了信息化時代。
縱觀國內(nèi),我國政府、企業(yè)和行業(yè)信息化系統(tǒng)建設(shè)往往缺少統(tǒng)一規(guī)劃和科學(xué)論證,系統(tǒng)之間缺乏統(tǒng)一的標準,形成了眾多“信息孤島”,而且受行政壟斷和商業(yè)利益所限,數(shù)據(jù)開放程度較低,以鄰為壑、共享難,這給數(shù)據(jù)利用造成極大障礙。制約我國數(shù)據(jù)資源開放和共享的一個重要因素是政策法規(guī)不完善,大數(shù)據(jù)挖掘缺乏相應(yīng)的立法,畢竟我國還沒有國家層面的專門適合數(shù)據(jù)共享的國家法律,只有相關(guān)的條例、法規(guī)、章程、意見等。無法既保證共享又防止濫用,一方面欠缺推動政府和公共數(shù)據(jù)的政策,另一方面數(shù)據(jù)保護和隱私保護方面的制度不完善抑制了開放的積極性。因此,建立一個良性發(fā)展的數(shù)據(jù)共享生態(tài)系統(tǒng),是我國大數(shù)據(jù)發(fā)展需要邁過去的一道砍。
開放與隱私如何平衡,亦是一大難題。任何技術(shù)都是雙刃劍,大數(shù)據(jù)也不例外。如何在推動數(shù)據(jù)全面開放、應(yīng)用和共享的同時有效地保護公民、企業(yè)隱私,逐步加強隱私立法,將是大數(shù)據(jù)時代的一個重大挑戰(zhàn)。