Spark有一個(gè)機(jī)器學(xué)習(xí)庫叫MLLib,充分利用了Spark快速內(nèi)存計(jì)算,迭代效率高的優(yōu)勢開發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序。它可用于Java,Scala,Python或R,包括分類和回歸,以及通過超參數(shù)調(diào)整構(gòu)建機(jī)器學(xué)習(xí)管道的能力。
總結(jié)
所以,到底是選Hadoop還是Spark呢?兩者都是Apache的頂級(jí)項(xiàng)目,經(jīng)常一起使用,并且有相似之處,但Spark并不是離不開Hadoop,目前已有超過20%的Spark獨(dú)立于Hadoop運(yùn)行,并且這一比例還在增加。從性能、成本、高可用性、易用性、安全性和機(jī)器學(xué)習(xí)諸多方面參考,Spark都略勝一籌!
或許,Hadoop確實(shí)老了,大數(shù)據(jù)世界應(yīng)該出現(xiàn)更年輕的統(tǒng)治者。