大數(shù)據(jù)的概念已經(jīng)表明,大數(shù)據(jù)不僅僅是海量的數(shù)據(jù),還包括通過(guò)處理大數(shù)據(jù)從中獲取價(jià)值。如今,大數(shù)據(jù)與商業(yè)智能、商業(yè)分析和數(shù)據(jù)挖掘是同義詞,已經(jīng)使商業(yè)智能從報(bào)告和決策支持轉(zhuǎn)移到預(yù)測(cè)和制定未來(lái)行動(dòng)綱領(lǐng)。新的數(shù)據(jù)管理系統(tǒng)旨在應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的挑戰(zhàn),如分布式架構(gòu)技術(shù)是一個(gè)開(kāi)源平臺(tái),目前是在管理存儲(chǔ)和接入,以及高速并行處理大規(guī)模數(shù)據(jù)集等方面應(yīng)用最為廣泛的技術(shù)。然而,對(duì)于很多企業(yè),特別是不少中小企業(yè)來(lái)說(shuō),分布式技術(shù)是一個(gè)挑戰(zhàn)。因?yàn)檫@些中小企業(yè)往往不具備應(yīng)用大數(shù)據(jù)需要的專業(yè)人員和經(jīng)驗(yàn),他們需要外部資源幫助。應(yīng)該看到,大數(shù)據(jù)應(yīng)用需要的不是純粹基于技術(shù)的技能,找到正確的分析大數(shù)據(jù)的技能,或許是企業(yè)應(yīng)用大數(shù)據(jù)面臨的最大難題。對(duì)于大部分企業(yè)來(lái)說(shuō),發(fā)現(xiàn)和選擇勝任的數(shù)據(jù)專家(在數(shù)據(jù)挖掘、可視化、操作和發(fā)現(xiàn)等方面)是困難而昂貴的。
其他商業(yè)大數(shù)據(jù)技術(shù)包括Casandra數(shù)據(jù)庫(kù),它是一個(gè)動(dòng)態(tài)的數(shù)據(jù)庫(kù)工具,采用行存儲(chǔ)格式,每一行能存儲(chǔ)二百萬(wàn)個(gè)數(shù)據(jù)單元。對(duì)于企業(yè)的另一個(gè)挑戰(zhàn)是選擇最適合他們的大數(shù)據(jù)技術(shù):開(kāi)源技術(shù)(如分布式架構(gòu)技術(shù))或者商業(yè)技術(shù)(如Casandra, Cloudera, Hortonworks, MapR)。
政府在應(yīng)用大數(shù)據(jù)時(shí),不僅要處理多個(gè)來(lái)源、不同格式數(shù)據(jù)集成等一般問(wèn)題,而且還面臨一些特殊挑戰(zhàn),最大的挑戰(zhàn)就是數(shù)據(jù)搜集。因?yàn)檎鸭臄?shù)據(jù)不僅來(lái)自于多種渠道(如社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)、眾包),也來(lái)自于不同的來(lái)源(如國(guó)家、機(jī)構(gòu)和部門(mén)),搜集難度可想而知。其次,在國(guó)家之間分享數(shù)據(jù)和信息是一個(gè)特殊的挑戰(zhàn)??鐕?guó)分享信息,由于涉及到語(yǔ)言轉(zhuǎn)換和不同的文化背景(內(nèi)容的表現(xiàn)形式),分享和傳遞的信息有可能失真。第三個(gè)挑戰(zhàn)是在一個(gè)國(guó)家不同的政府部門(mén)和機(jī)構(gòu)之間分享數(shù)據(jù)。政府?dāng)?shù)據(jù)與商業(yè)數(shù)據(jù)最重要的不同就在范圍和區(qū)域,其差異近幾年都在平穩(wěn)增長(zhǎng)。政府(包括地方政府和中央政府)在實(shí)施法律和規(guī)章、提供公共服務(wù)和監(jiān)管金融交易的過(guò)程中積累了大量數(shù)據(jù)。這些數(shù)據(jù)的屬性、價(jià)值和帶來(lái)的挑戰(zhàn),都不同于公司運(yùn)營(yíng)中產(chǎn)生的數(shù)據(jù)。政府的大數(shù)據(jù)特征屬性可以表述為存儲(chǔ)、安全和多樣性。通常,每個(gè)政府機(jī)構(gòu)或部門(mén)都有自己的存儲(chǔ)機(jī)構(gòu),用于存儲(chǔ)公共或機(jī)密信息,而且并不愿意分享各自的專有信息。
每個(gè)系統(tǒng)都保存有與其他系統(tǒng)隔絕的信息,這使得政府機(jī)構(gòu)和部門(mén)之間的數(shù)據(jù)集成更加復(fù)雜。彼此溝通的失敗有時(shí)是影響數(shù)據(jù)集成的重要原因。例如,在英國(guó),警察機(jī)構(gòu)和醫(yī)院之間曾經(jīng)打算在暴力犯罪方面分享信息,但這一項(xiàng)目最終失敗,原因就是兩者之間溝通不足。另一個(gè)分享政府信息的挑戰(zhàn)是建立統(tǒng)一的數(shù)據(jù)格式,能夠允許不同機(jī)構(gòu)進(jìn)行分析。盡管大部分政府?dāng)?shù)據(jù)是結(jié)構(gòu)化的,但是從多種渠道和來(lái)源去搜集數(shù)據(jù)仍然是一個(gè)更大的困難。缺乏標(biāo)準(zhǔn)化的數(shù)據(jù)格式和軟件,以及從多個(gè)政府機(jī)構(gòu)的離散數(shù)據(jù)庫(kù)中提取有用信息的跨機(jī)構(gòu)解決方法,也是政府推進(jìn)大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)。但由于政府的緊縮措施,導(dǎo)致其缺乏相應(yīng)資金去發(fā)展和推進(jìn)解決上述問(wèn)題。
在使用大數(shù)據(jù)時(shí),政府必須解決相關(guān)的法律、安全和許可要求等問(wèn)題。在搜集和使用大數(shù)據(jù)用于預(yù)測(cè)分析與保障公民隱私權(quán)之間,應(yīng)該有一條清晰的界限。
在美國(guó),美國(guó)愛(ài)國(guó)者法案允許合法監(jiān)控,有時(shí)還可以監(jiān)控公民;電子通訊隱私法案允許相關(guān)部門(mén)不經(jīng)授權(quán)便可進(jìn)入電子郵件系統(tǒng);要對(duì)網(wǎng)絡(luò)情報(bào)共享和保護(hù)法案(CISPA)加以注意,它將允許安全機(jī)構(gòu)和私人網(wǎng)絡(luò)公司之間的信息共享,這增加了人們對(duì)誤解信息不適當(dāng)應(yīng)用的關(guān)注。
數(shù)據(jù)安全是政府大數(shù)據(jù)最基本的屬性,因此,搜集、存儲(chǔ)和使用大數(shù)據(jù)都需要特別注意。然而,目前大部分大數(shù)據(jù)技術(shù),包括 Casandra數(shù)據(jù)庫(kù)和分布式技術(shù),都缺乏足夠的安全保護(hù)工具。對(duì)政府而言,確保安全是又一個(gè)挑戰(zhàn)。
表1 企業(yè)與政府大數(shù)據(jù)項(xiàng)目的屬性對(duì)比
對(duì)于政府的大數(shù)據(jù)項(xiàng)目而言,確保獲取高度管制行業(yè)(比如金融服務(wù)和醫(yī)療機(jī)構(gòu))信息的合規(guī)性,是搜集數(shù)據(jù)的另一個(gè)障礙。比如,當(dāng)從與醫(yī)療相關(guān)的大數(shù)據(jù)獲取有效信息的時(shí)候,必須解決美國(guó)醫(yī)療管制制度對(duì)數(shù)據(jù)保護(hù)的問(wèn)題。針對(duì)醫(yī)療行業(yè)的大數(shù)據(jù)分析,美國(guó)與醫(yī)療相關(guān)的兩個(gè)法案健康保險(xiǎn)攜帶和責(zé)任法案(HIPAA)、經(jīng)濟(jì)和臨床健康醫(yī)療信息技術(shù)法案(HITECH)均設(shè)置了很大障礙。