現(xiàn)在有兩個非常流行的技術(shù),他們分別是Hadoop和Spark對大型靜態(tài)數(shù)據(jù)集的處理,Hadoop是批處理非常流行的一種技術(shù),但是它有很多的局限。在過去幾年當中Spark更加受到大家的歡迎。
Spark的工作方式就是考慮你的處理過程,將它想象成一個過程或者一個舞臺,Spark做的就是非常有效地利用內(nèi)存,每一個計算過程都會輸出一個結(jié)果,Spark會把這些結(jié)果做一個統(tǒng)計,這種工作的方法是迭代式的,而且是非常高效的迭代式。Spark會把所有的數(shù)據(jù)都進行統(tǒng)一的整理,而且Spark比Hadoop的API更加有優(yōu)勢,所以在過去幾年當中,Spark幾乎慢慢地變成了批處理的標配。

7.Querying