(一)數(shù)據(jù)管理
企業(yè)實(shí)施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風(fēng)險(xiǎn)對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)管理,有助于對(duì)數(shù)據(jù)保護(hù)的基準(zhǔn)安全控制做出合理的決策。
從大數(shù)據(jù)特性層面對(duì)數(shù)據(jù)進(jìn)行標(biāo)記(例如分析類型、處理方式、數(shù)據(jù)時(shí)效性、數(shù)據(jù)類型、數(shù)據(jù)格式 、數(shù)據(jù)源等維度),就知道數(shù)據(jù)是如何進(jìn)出大數(shù)據(jù)平臺(tái),將會(huì)被如何使用,會(huì)被誰(shuí)使用,數(shù)據(jù)是如何存儲(chǔ)的等等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對(duì)數(shù)據(jù)訪問(wèn)控制制定相應(yīng)的策略。
最后,如果缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中存在于哪里的意識(shí),這將無(wú)疑是把數(shù)據(jù)暴露于風(fēng)險(xiǎn)之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中分布情況,并能自動(dòng)地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護(hù)是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。
(二)身份認(rèn)證和訪問(wèn)控制
身份認(rèn)證是防護(hù)數(shù)據(jù)安全的第一道關(guān)卡,通過(guò)身份認(rèn)證確保訪問(wèn)大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、Pig、Impala、Spark等幾乎都支持利用Kerberos進(jìn)行身份認(rèn)證。
Kerberos也可以和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無(wú)需大數(shù)據(jù)平臺(tái)用戶重新建立用戶組、角色和密鑰等。用戶通過(guò)身份認(rèn)證后可獲得訪問(wèn)大數(shù)據(jù)平臺(tái)的資格,為進(jìn)一步控制用戶對(duì)資源的訪問(wèn)權(quán)限,需要通過(guò)授權(quán)機(jī)制來(lái)管理不同用戶對(duì)不同資源的訪問(wèn)許可。
Hadoop和HBase及其它組件都在一定程度上支持對(duì)訪問(wèn)的控制,RBAC和ABAC是兩個(gè)不同粒度的訪問(wèn)控制模型,前者是基于角色來(lái)進(jìn)行訪問(wèn)控制,后者是更為細(xì)粒度的控制,可控制到被訪問(wèn)對(duì)象的字段級(jí)別。在制定訪問(wèn)控制策略時(shí),應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場(chǎng)景等針對(duì)不同數(shù)據(jù)、不同業(yè)務(wù)需求制定相應(yīng)的訪問(wèn)限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價(jià)值是企業(yè)的最終目的。
(三)數(shù)據(jù)保護(hù)
如果說(shuō)身份認(rèn)證、授權(quán)和訪問(wèn)控制是確保了對(duì)數(shù)據(jù)訪問(wèn)的對(duì)象的防護(hù)和控制,數(shù)據(jù)保護(hù)技術(shù)則是從根源層保護(hù)信息安全的最重要和最有效的手段。通過(guò)數(shù)據(jù)保護(hù)技術(shù),對(duì)大數(shù)據(jù)的開(kāi)放共享、發(fā)布、最大化利用等都會(huì)有著最直接的積極作用。
數(shù)據(jù)保護(hù)技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個(gè)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重要保證。數(shù)據(jù)保護(hù)技術(shù)通過(guò)對(duì)數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,可讓處理后的數(shù)據(jù)到達(dá)安全交易、開(kāi)放共享的目的。
而對(duì)于企業(yè)內(nèi)部,針對(duì)脫敏后的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問(wèn)控制限制,可讓更多的分析應(yīng)用更高效地實(shí)施并優(yōu)化開(kāi)發(fā)項(xiàng)目,讓大數(shù)據(jù)得到更充分的利用同時(shí),也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法令和法規(guī)。
(四)網(wǎng)絡(luò)安全
大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過(guò)客戶端訪問(wèn)大數(shù)據(jù)平臺(tái)的連接和大數(shù)據(jù)平臺(tái)中服務(wù)器節(jié)點(diǎn)之間的網(wǎng)絡(luò)通信安全。 為保證數(shù)據(jù)在傳輸過(guò)程中的安全性,節(jié)點(diǎn)之間及客戶端與服務(wù)器之間的通信都需要進(jìn)行加密,不同的通信使用不同的加密方式,Hadoop平臺(tái)支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。
除了對(duì)網(wǎng)絡(luò)通信進(jìn)行加密設(shè)置,還可通過(guò)使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺(tái)的直接訪問(wèn)來(lái)進(jìn)一步升級(jí)網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺(tái)和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶通過(guò)登錄網(wǎng)關(guān)服務(wù)器來(lái)驗(yàn)證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對(duì)大數(shù)據(jù)平臺(tái)的訪問(wèn),同時(shí),該服務(wù)器還可用來(lái)提供訪問(wèn)控制、策略管理。用戶通過(guò)登錄到網(wǎng)關(guān)服務(wù)器來(lái)執(zhí)行對(duì)大數(shù)據(jù)平臺(tái)的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺(tái)網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺(tái)中的服務(wù)器節(jié)點(diǎn),從而保護(hù)大數(shù)據(jù)平臺(tái)不會(huì)受到非法訪問(wèn)。
(五)基礎(chǔ)安全
前面我們談到了通過(guò)各種方式來(lái)保證大數(shù)據(jù)平臺(tái)和安全性,包括身份認(rèn)證、授權(quán)、訪問(wèn)控制、數(shù)據(jù)保護(hù)及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺(tái)仍然有可能會(huì)受到非法訪問(wèn)和特權(quán)用戶的訪問(wèn)。為確保合規(guī)性的需要,我們需要對(duì)大數(shù)據(jù)平臺(tái)的一切活動(dòng)進(jìn)行審計(jì)和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系統(tǒng)負(fù)責(zé)對(duì)大數(shù)據(jù)平臺(tái)中任何可疑的活動(dòng)進(jìn)行收集,監(jiān)控,分析和生成各種安全報(bào)告。
以下是大數(shù)據(jù)平臺(tái)中需要被監(jiān)控的事件以用來(lái)分析識(shí)別安全事件:用戶登錄和身份驗(yàn)證事件、HDFS操作、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過(guò)各種客戶端的訪問(wèn)如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺(tái)中的一切活動(dòng),才有機(jī)會(huì)捕捉可能會(huì)發(fā)生的安全事故及進(jìn)行事后分析時(shí)有機(jī)會(huì)進(jìn)行回溯分析,追蹤事故根源。