如果你的數(shù)據(jù)集非常的小,那么使用這個巨型生態(tài)系統(tǒng)將不會很適合。這需要對自己的數(shù)據(jù)有足夠的了解,并且分析需要什么類型的查詢以及你的數(shù)據(jù)是否真的夠大。
另一方面,鑒于你的計算指令可能很大,只通過數(shù)據(jù)庫去測量數(shù)據(jù)的體積可能會存在誤差。有時候數(shù)學計算或者分析小型數(shù)據(jù)集的排列可能會讓得出的結(jié)果遠大于實際數(shù)據(jù)體積,所以關鍵在于你對數(shù)據(jù)有切實的了解。
數(shù)據(jù)增長的速度
你可能在數(shù)據(jù)倉庫或者其它的數(shù)據(jù)源中存有數(shù)TB數(shù)據(jù),然而在建立Hadoop集群前有一個必須考慮的因素就是數(shù)據(jù)的增長速度。
對你的分析師提出幾個簡單的問題,比如: