作者為 亞信科技(中國)有限公司網(wǎng)絡(luò)安全事業(yè)部 尹雯玉
數(shù)據(jù)脫敏(Data Masking),又稱數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對數(shù)據(jù)脫敏的定義為:指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。這樣,就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實數(shù)據(jù)集。
可以看到數(shù)據(jù)脫敏具有幾個關(guān)鍵點:敏感數(shù)據(jù)、脫敏規(guī)則、使用環(huán)境。
敏感數(shù)據(jù),又稱隱私數(shù)據(jù),常見的敏感數(shù)據(jù)有: 姓名、身份證號碼、地址、電話號碼、銀行賬號、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機構(gòu)名稱、營業(yè)執(zhí)照號碼、銀行帳號、交易日期、交易金額等。
隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)商業(yè)價值的挖掘,用戶的精準(zhǔn)定位,大數(shù)據(jù)中蘊藏的巨大商業(yè)價值被逐步挖掘出來,但是同時也帶來了巨大的挑戰(zhàn)--個人隱私信息的保護。個人信息與個人行為(比如位置信息、消費行為、網(wǎng)絡(luò)訪問行為)等,這些都是人的隱私,也是我們所關(guān)注的一類敏感信息,在大數(shù)據(jù)價值挖掘的基礎(chǔ)上如何保護人的隱私信息,也將是數(shù)據(jù)脫敏必須解決的難題。
脫敏規(guī)則,一般的脫敏規(guī)則分類為可恢復(fù)與不可恢復(fù)兩類。
可恢復(fù)類,指脫敏后的數(shù)據(jù)可以通過一定的方式,可以恢復(fù)成原來的敏感數(shù)據(jù),此類脫敏規(guī)則主要指各類加解密算法規(guī)則。
不可恢復(fù)類,指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能恢復(fù)出。一般可分為替換算法和生成算法兩大類。替換算法即將需要脫敏的部分使用定義好的字符或字符串替換,生成類算法則更復(fù)雜一些,要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是“看起來很真實的假數(shù)據(jù)”。
使用環(huán)境,主要指脫敏之后的數(shù)據(jù)在哪些環(huán)境中使用。普遍按照生產(chǎn)環(huán)境和非生產(chǎn)環(huán)境(開發(fā)、測試、外包、數(shù)據(jù)分析等)進行劃分。
在最近一期的Gartner關(guān)于數(shù)據(jù)脫敏的報告(Magic Quadrant for Data Masking Technology-2014年12月)中根據(jù)數(shù)據(jù)脫敏產(chǎn)品應(yīng)用場景的將數(shù)據(jù)脫敏劃分為靜態(tài)數(shù)據(jù)脫敏(static data masking[SDM])和動態(tài)數(shù)據(jù)脫敏(dynamic data masking[DDM])。
靜態(tài)數(shù)據(jù)脫敏(SDM)與動態(tài)數(shù)據(jù)脫敏(DDM)主要的區(qū)別是:是否在使用敏感數(shù)據(jù)當(dāng)時進行脫敏。
靜態(tài)數(shù)據(jù)脫敏(SDM)一般用在非生產(chǎn)環(huán)境,在敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用,一般用于解決測試、開發(fā)庫需要生產(chǎn)庫的數(shù)據(jù)量與數(shù)據(jù)間的關(guān)聯(lián),以排查問題或進行數(shù)據(jù)分析等,但又不能將敏感數(shù)據(jù)存儲于非生產(chǎn)環(huán)境的問題。
動態(tài)數(shù)據(jù)脫敏(DDM)一般用在生產(chǎn)環(huán)境,在訪問敏感數(shù)據(jù)當(dāng)時進行脫敏,一般用來解決在生產(chǎn)環(huán)境需要根據(jù)不同情況對同一敏感數(shù)據(jù)讀取時需要進行不同級別脫敏的問題。
在上文中提到的Gartner是全球最具權(quán)威的IT市場與顧問咨詢公司,就IT的研究、發(fā)展、評估、應(yīng)用、市場等領(lǐng)域,為客戶提供客觀、公正的論證報告及市場調(diào)研報告,協(xié)助客戶進行市場分析、技術(shù)選擇、項目論證、投資決策。Gartner每年都在關(guān)鍵領(lǐng)域,采用“魔力象限圖”對主要廠商進行定位,是在某一特定時間內(nèi)的對市場情況進行的圖形化描述。魔力象限的四個象限依次分別為領(lǐng)導(dǎo)者(Leaders)、挑戰(zhàn)者(Challengers)、有遠見者(Visionaries)和特定領(lǐng)域者(Niche Players)。
數(shù)據(jù)脫敏首次作為一個單獨的魔力象限被Gartner發(fā)布是在2012年12月,每年的12月Gartner會發(fā)布當(dāng)年數(shù)據(jù)脫敏方面的分析報告,迄今為止一共發(fā)布了3期。
我們在這三份報告的基礎(chǔ)上分析近年來數(shù)據(jù)脫敏方面的變化,并對未來的發(fā)展進行展望。
1、數(shù)據(jù)脫敏市場定義與描述比較(Market Definition/Description)
可以看出,關(guān)于在最近一期的報告中,并沒有把“結(jié)構(gòu)化/非結(jié)構(gòu)化”(即是否是關(guān)系型數(shù)據(jù)類型)單獨作為一個分類的標(biāo)準(zhǔn),而是將“實時/非實時”以及“生產(chǎn)/非生產(chǎn)”作為了關(guān)鍵指標(biāo)。沒有強調(diào)非結(jié)構(gòu)化數(shù)據(jù)(Data redaction masks)作為一個單獨分類。