這似乎過度簡化了大數(shù)據(jù)的問題。在某種程度上說,管理大數(shù)據(jù)就像帶小孩一樣,帶兩個(gè)小孩的工作量并不只是一個(gè)小孩的兩倍,更像是指數(shù)關(guān)系。隨著大數(shù)據(jù)的增長,潛在的管理問題也會呈指數(shù)增長。
對于大數(shù)據(jù),你必須明白,它不僅意味著更多數(shù)據(jù),它也意味著更復(fù)雜的數(shù)據(jù),更敏感的數(shù)據(jù),它還意味著可能向成功滲入網(wǎng)絡(luò)的攻擊者暴露更多數(shù)據(jù)。如果潛在攻擊者知道你有大量高質(zhì)量數(shù)據(jù),這可能會增加你的攻擊面,因?yàn)槟惚灰暈槭菢O具吸引力的目標(biāo)。當(dāng)你進(jìn)行企業(yè)風(fēng)險(xiǎn)分析時(shí),應(yīng)該考慮這一點(diǎn)。
但當(dāng)我們談及大數(shù)據(jù)時(shí),我們不只是談?wù)擉w積或者數(shù)量。大多數(shù)人都會談到Velocity(速度),即數(shù)據(jù)進(jìn)入企業(yè)環(huán)境的速度。就個(gè)人而言,我認(rèn)為Variety(種類)的概念更有趣。這是什么數(shù)據(jù)?管理大量PHI數(shù)據(jù)要比管理混合數(shù)據(jù)(包括PHI數(shù)據(jù)、PCI數(shù)據(jù)、醫(yī)療數(shù)據(jù)和人口數(shù)據(jù))簡單得多。數(shù)據(jù)的相似度對數(shù)據(jù)管理有著巨大的影響。這些數(shù)據(jù)的相似度如何?信息更多樣化,用于支持這些信息的基礎(chǔ)設(shè)施就更復(fù)雜。
支持大數(shù)據(jù)的IT部署與支持?jǐn)?shù)據(jù)的操作更相關(guān),而不是數(shù)據(jù)的安全性。可擴(kuò)展基礎(chǔ)設(shè)施、并行處理、數(shù)據(jù)復(fù)制和大量內(nèi)存中處理只是關(guān)于大數(shù)據(jù)操作的一些討論。但對于我們這些安全人員來說,大數(shù)據(jù)安全意味著什么?
1.了解數(shù)據(jù)
你擁有大量數(shù)據(jù),但是你了解這些數(shù)據(jù)嗎?你有PCI數(shù)據(jù),還是PHI數(shù)據(jù),還是隱私企業(yè)數(shù)據(jù)/客戶數(shù)據(jù)?在你擔(dān)心別的事情之前,你需要了解大數(shù)據(jù)中包括哪些數(shù)據(jù)。了解大數(shù)據(jù)可以幫助你更好地管理這些數(shù)據(jù),并讓你能夠發(fā)現(xiàn)異常數(shù)據(jù)。清理不相關(guān)的或者錯(cuò)誤的數(shù)據(jù)是不可以掉以輕心的工作。
2. 基礎(chǔ)設(shè)施問題
可用性絕對是一個(gè)安全問題,所以請確保你具有適當(dāng)大小的基礎(chǔ)設(shè)施。你的網(wǎng)絡(luò)速度足夠快以支持?jǐn)?shù)據(jù)吞吐量需求嗎?你具有足夠的CPU容量來支持?jǐn)?shù)據(jù)在應(yīng)用程序、數(shù)據(jù)庫和存儲設(shè)備間的移動(dòng)和管理嗎?你有足夠的磁盤空間來存儲這些數(shù)據(jù)嗎?你有足夠強(qiáng)大的硬盤管理程序嗎?這些都是管理大量數(shù)據(jù)所需要考慮的標(biāo)準(zhǔn)IT問題。在很多方面來看,數(shù)據(jù)越多,越難保護(hù),你的解決方案需要隨著數(shù)據(jù)的增加和數(shù)據(jù)需求來擴(kuò)展。你可以實(shí)時(shí)加密PB級或EB級的數(shù)據(jù)以確保數(shù)據(jù)滿足業(yè)務(wù)要求(包括會議時(shí)間要求)嗎?
3. 了解時(shí)序限制
時(shí)序是非常重要的因素。你的數(shù)據(jù)有生命周期嗎?例如,從時(shí)序性來看,臨床醫(yī)療信息顯然要比典型的制造業(yè)指標(biāo)數(shù)據(jù)更重要。更直白地說,有些數(shù)據(jù)如果不能及時(shí)管理和分析的話,將會失去部分價(jià)值。你認(rèn)為如果Phalanx導(dǎo)彈防御系統(tǒng)花五分鐘來評估威脅和響應(yīng),這個(gè)系統(tǒng)還會有任何價(jià)值嗎?答案顯然是否定的。這無疑推動(dòng)了IT容量和吞吐量要求,有時(shí)候,時(shí)序性并不重要,不過在很多情況下,舊數(shù)據(jù)可能已經(jīng)不相關(guān)了,數(shù)據(jù)的生命周期比我們想象的更重要。
4. 了解內(nèi)容數(shù)據(jù)
這是對上述三個(gè)問題的直接擴(kuò)展,幫助我們了解大數(shù)據(jù)。當(dāng)數(shù)據(jù)有具體內(nèi)容,我們可以將其作為信息來管理,而不是字節(jié)和比特。它是PHI數(shù)據(jù),還是PCI數(shù)據(jù),或者個(gè)人信息?我們可以更深入地挖掘這種數(shù)據(jù),通過內(nèi)容來管理這些數(shù)據(jù),而不只是將其作為“數(shù)據(jù)”對待。以智能的方式來處理這些數(shù)據(jù)還可以讓我們以類似的方式來處理具有類似內(nèi)容的數(shù)據(jù),我們可以在這些數(shù)據(jù)間建立關(guān)系。
雖然大數(shù)據(jù)可能只是“數(shù)據(jù)”,我們真的不希望它們只是“數(shù)據(jù)”,我們希望它們是“信息”(即具有內(nèi)容的數(shù)據(jù))。大數(shù)據(jù)作為數(shù)據(jù)分析來源比單純作為“數(shù)據(jù)”更具價(jià)值,這也是為什么數(shù)據(jù)內(nèi)容和相關(guān)性非常重要的原因,我們可以通過數(shù)據(jù)內(nèi)容和相關(guān)性讓數(shù)據(jù)變得更加“智能”,你不只是談?wù)?ldquo;醫(yī)療數(shù)據(jù)”,而是談?wù)摢?dú)特的病人標(biāo)識、過敏癥、當(dāng)前處方等信息;你不僅僅是談?wù)?ldquo;制造數(shù)據(jù)”,而是談?wù)摼唧w的庫存物品、供應(yīng)商、商品價(jià)格、銷售價(jià)格、買方等;你不只是在談?wù)摪踩录?shù)據(jù),而是在討論IDS和內(nèi)部系統(tǒng)報(bào)告針對Modor系統(tǒng)(這是一個(gè)運(yùn)行Oracle 11g Enterprise的Windows Server 2008 R2 SP1,包含所有臨床病人信息)的攻擊。
從某種角度來看,這一切只是加劇了這個(gè)問題。我們需要處理大量具有潛在價(jià)值、動(dòng)態(tài)的、復(fù)雜的數(shù)據(jù),然后對這些數(shù)據(jù)進(jìn)行內(nèi)容分析。這些分析本身,以及用于創(chuàng)建這些分析的流程,也是非常有價(jià)值的。畢竟,如果我們不能從大數(shù)據(jù)分析中得到相關(guān)情報(bào)信息的話,大數(shù)據(jù)真的只是一堆數(shù)據(jù)。這也讓我們認(rèn)識到有必要保護(hù)這些分析建模和結(jié)果,以及對它們的訪問。