許多公司的數(shù)據(jù)增長(zhǎng)都是按年算的。這種情況下,你的數(shù)據(jù)增長(zhǎng)速度其實(shí)并不快;所以這里建議考慮歸檔和清除選項(xiàng),而不是直接的奔往Hadoop。
如何減少需處理的數(shù)據(jù)
如果你確實(shí)有非常大體積的數(shù)據(jù),你可以考慮通過(guò)以下的途徑將數(shù)據(jù)縮減到非常適合管理的體積,以下的幾個(gè)選項(xiàng)已經(jīng)過(guò)產(chǎn)業(yè)幾十年考驗(yàn)。
考慮歸檔
數(shù)據(jù)存檔是對(duì)過(guò)期的數(shù)據(jù)進(jìn)行分開存儲(chǔ),當(dāng)然存儲(chǔ)的時(shí)間根據(jù)實(shí)際需求制定。這需要對(duì)數(shù)據(jù)以及應(yīng)用程序?qū)?shù)據(jù)的使用情況,有非常充分的了解。比如電子商務(wù)公司的大數(shù)據(jù)處理只將3個(gè)月內(nèi)的數(shù)據(jù)存入活躍數(shù)據(jù)庫(kù),而舊訂單則被存入單獨(dú)的存儲(chǔ)。
這個(gè)途徑同樣可以運(yùn)用于你的數(shù)據(jù)倉(cāng)庫(kù)。當(dāng)然你可以存儲(chǔ)更多的近期數(shù)據(jù)用于報(bào)告和查詢,使用頻度少的數(shù)據(jù)可以被存入單獨(dú)的存儲(chǔ)設(shè)備。
考慮清除數(shù)據(jù)
有時(shí)候我們一直忙于收集數(shù)據(jù)而不清楚究竟需要保存多少數(shù)據(jù),如果你存儲(chǔ)了非常多用不到的數(shù)據(jù),那么這將毫無(wú)疑問的降低你有效數(shù)據(jù)的處理速度。弄清你的業(yè)務(wù)需求并且審查數(shù)據(jù)是否可以被刪除,從中分析出你需要儲(chǔ)存數(shù)據(jù)的類型,這不僅會(huì)節(jié)省你的存儲(chǔ)空間,同樣會(huì)提升有效數(shù)據(jù)的分析速度。