更好的數據壓縮可以節(jié)省每TB硬件成本。列存儲數據庫,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以實現30:1或者40:1的壓縮比。而行存儲數據庫,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的壓縮比。這是因為柱狀數據可以保持一致,包含郵編、采購訂單號碼等多種數據。而行狀數據,比如與客戶相關的屬性組合--名稱、地址、郵編、采購訂單號等等,則不具有這種優(yōu)勢。Aster Data和甲骨文數據庫可以提供混合行/列存儲功能。甲骨文的Hybrid Columnar Compression可以提供10:1的壓縮比。
數據壓縮
壓縮比率不同很大程度上取決于數據本身,而且列存儲并不總是最好的選擇。如果在數據查詢的時候需要調用很大屬性,行存儲方案可能會表現出更好的性能。事實上,行存儲數據庫經常被企業(yè)應用在處理混合查詢的數據倉庫中,而列存儲數據庫更多的是集中在海量數據查詢中。
四、分類壓縮、減少處理時間
類似連續(xù)性的列數據有利于壓縮一樣,我們也可以通過數據加載之前進行分類從而提高壓縮比。在將數據裝載進Sybase IQ至 強,comSCore使用Syncsort DMExpress軟件對數據進行分類。該公司的CTO Michael Brown(圖示)表示,它可以將10字節(jié)的 數據壓縮成3、4個字節(jié),而通過分類后的10個字節(jié)數據可被壓縮成1個字節(jié)。“這將給我們存儲海量數據提供了另外一種方式 。”