大數(shù)據(jù)已不再是一個(gè)單純的熱門詞匯了,隨著技術(shù)的發(fā)展大數(shù)據(jù)已在企業(yè)、政府、金融、醫(yī)療、電信等領(lǐng)域得到了廣泛的部署和應(yīng)用,并通過持續(xù)不斷的發(fā)展,大數(shù)據(jù)也已在各領(lǐng)域產(chǎn)生了明顯的應(yīng)用價(jià)值。
企業(yè)已開始熱衷于利用大數(shù)據(jù)技術(shù)收集和存儲(chǔ)海量數(shù)據(jù),并對(duì)其進(jìn)行分析。企業(yè)所收集的數(shù)據(jù)量也呈指數(shù)級(jí)增長(zhǎng),包括交易數(shù)據(jù)、位置數(shù)據(jù)、用戶交互數(shù)據(jù)、物流數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、企業(yè)經(jīng)營(yíng)數(shù)據(jù)、硬件監(jiān)控?cái)?shù)據(jù)、應(yīng)用日志數(shù)據(jù)等。由于這些海量數(shù)據(jù)中包含大量企業(yè)或個(gè)人的敏感信息,數(shù)據(jù)安全和隱私保護(hù)的問題逐漸突顯出來(lái)。而這些問題由于大數(shù)據(jù)的三大主要特性而被進(jìn)一步放大:數(shù)據(jù)量大(Volume)、數(shù)據(jù)增長(zhǎng)快(Velocity)和數(shù)據(jù)多樣化(Variety)。
現(xiàn)在,當(dāng)我們說(shuō)“大數(shù)據(jù)”的時(shí)候,已不再是單指海量的數(shù)據(jù)了,而是基礎(chǔ)設(shè)施(云服務(wù)器)、應(yīng)用、數(shù)據(jù)源、分析模型、數(shù)據(jù)存儲(chǔ)和平臺(tái)的組合,而正是這些使得大數(shù)據(jù)安全面臨著不同尋常的挑戰(zhàn)。
與傳統(tǒng)數(shù)據(jù)安全相比,大數(shù)據(jù)安全有什么不同
傳統(tǒng)數(shù)據(jù)安全技術(shù)的概念是基于保護(hù)單節(jié)點(diǎn)實(shí)例的安全,例如一臺(tái)數(shù)據(jù)庫(kù)或服務(wù)器,而不是像Hadoop這樣的分布式計(jì)算環(huán)境。傳統(tǒng)安全技術(shù)在這種大型的分布式環(huán)境中不再有效。另外,在大規(guī)模的Hadoop集群中,各服務(wù)器和組件的安全配置出現(xiàn)不一致的機(jī)率將大大增加,這將導(dǎo)致更多的安全漏洞產(chǎn)生。
大數(shù)據(jù)平臺(tái)存儲(chǔ)著各種各樣的數(shù)據(jù),每一種數(shù)據(jù)源都可能需要有其相應(yīng)的訪問限制和安全策略。而當(dāng)需要整合不同數(shù)據(jù)源時(shí),就變得更加難以平衡對(duì)數(shù)據(jù)的安全策略的應(yīng)用。同時(shí),快速增長(zhǎng)的海量數(shù)據(jù)使得大數(shù)據(jù)平臺(tái)中的敏感信息和個(gè)人隱私信息無(wú)處不在,準(zhǔn)確發(fā)現(xiàn)和定位敏感信息并制定針對(duì)性的訪問控制策略變得愈加困難,而對(duì)敏感信息的訪問的實(shí)時(shí)監(jiān)控也是保障大數(shù)據(jù)安全的重要任務(wù)之一。
最后,大數(shù)據(jù)技術(shù)很少單獨(dú)使用Hadoop,而是會(huì)結(jié)合生態(tài)系統(tǒng)中的其它技術(shù)組件如HBase,Spark,Impala,Hive,Pig等對(duì)數(shù)據(jù)進(jìn)行抽取、存儲(chǔ)、處理、計(jì)算等。這些技術(shù)使得大數(shù)據(jù)可被訪問和利用,但基本都缺乏企業(yè)級(jí)的安全特性。以上從平臺(tái)、數(shù)據(jù)、技術(shù)視角對(duì)大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全進(jìn)行了簡(jiǎn)單的分析,傳統(tǒng)安全工具沒有為數(shù)據(jù)多樣化、數(shù)據(jù)處理及Hadoop的分布式特性而改進(jìn),不再足以能保證大數(shù)據(jù)的安全。
如何建立完善的大數(shù)據(jù)安全體系
面對(duì)復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個(gè)層面綜合考慮以建立全方位的大數(shù)據(jù)安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護(hù)、審計(jì)和監(jiān)控。
邊界安全:主要包含網(wǎng)絡(luò)安全和身份認(rèn)證。防護(hù)對(duì)系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪問,身份認(rèn)證確保用戶的真實(shí)性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都支持使用Kerberos進(jìn)行用戶身份驗(yàn)證。
訪問控制和授權(quán):通過對(duì)用戶的授權(quán)實(shí)現(xiàn)對(duì)數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)限控制。Hadoop和HBase都支持ACL,同時(shí)也實(shí)現(xiàn)了RBAC(基于角色的訪問控制)模型,更細(xì)粒度的ABAC(Attibute Based Access Control)在HBase較新的版本中也可通過訪問控制標(biāo)簽和可見性標(biāo)簽的形式實(shí)現(xiàn)。
數(shù)據(jù)保護(hù):通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護(hù)敏感信息不被泄露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲(chǔ)加密。傳輸過程中的加密依賴于網(wǎng)絡(luò)安全協(xié)議而存儲(chǔ)加密可通過相關(guān)加密算法和密鑰對(duì)數(shù)據(jù)進(jìn)行加密存儲(chǔ)。數(shù)據(jù)脫敏是比加密較為折中的辦法,對(duì)于大數(shù)據(jù)時(shí)代,該方法將更被更為廣泛的采用。因?yàn)槭占暮A繑?shù)據(jù)需要相對(duì)開放的共享給內(nèi)部不同團(tuán)隊(duì)或外部機(jī)構(gòu)使用,才能發(fā)揮大數(shù)據(jù)的價(jià)值。對(duì)于敏感信息部分可通過脫敏的方式進(jìn)行處理以保障信息安全。
審計(jì)和監(jiān)控:實(shí)時(shí)地監(jiān)控和審計(jì)可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取證等。
如何設(shè)計(jì)大數(shù)據(jù)安全框架
基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺(tái)的特性,企業(yè)在實(shí)踐大數(shù)據(jù)平臺(tái)安全化時(shí),需要有更詳細(xì)的架構(gòu)設(shè)計(jì),四層安全體系對(duì)應(yīng)在實(shí)際環(huán)境中,應(yīng)是以數(shù)據(jù)為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再?gòu)脑L問控制和數(shù)據(jù)保護(hù)層面加強(qiáng)對(duì)數(shù)據(jù)使用的安全防護(hù),最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺(tái)的安全部署。因此,大數(shù)據(jù)安全框架需包含以下5個(gè)核心模塊: 數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護(hù)、網(wǎng)絡(luò)安全、基礎(chǔ)安全。