展望
SparkR目前來說還不是非常成熟,一方面RDD API在對復(fù)雜的R數(shù)據(jù)類型的支持、穩(wěn)定性和性能方面還有較大的提升空間,另一方面DataFrame API在功能完備性上還有一些缺失,比如對用R代碼編寫UDF的支持、序列化/反序列化對嵌套類型的支持,這些問題相信會在后續(xù)的開發(fā)中得到改善和解決。如何讓DataFrame API對熟悉R原生Data Frame和流行的R package如dplyr的用戶更友好是一個有意思的方向。此外,下一步的開發(fā)計劃包含幾個大的特性,比如普渡大學(xué)正在做的在SparkR中支持Spark Streaming,還有Databricks正在做的在SparkR中支持ML pipeline等。SparkR已經(jīng)成為Spark的一部分,相信社區(qū)中會有越來越多的人關(guān)注并使用SparkR,也會有更多的開發(fā)者參與對SparkR的貢獻,其功能和使用性將會越來越強。
總結(jié)
Spark將正式支持R API對熟悉R語言的數(shù)據(jù)科學(xué)家是一個福音,他們可以在R中無縫地使用RDD和Data Frame API,借助Spark內(nèi)存計算、統(tǒng)一軟件棧上支持多種計算模型的優(yōu)勢,高效地進行分布式數(shù)據(jù)計算和分析,解決大規(guī)模數(shù)據(jù)集帶來的挑戰(zhàn)。工欲善其事,必先利其器,SparkR必將成為數(shù)據(jù)科學(xué)家在大數(shù)據(jù)時代的又一門新利器。
(責編/仲浩)
作者:孫銳,英特爾大數(shù)據(jù)團隊工程師,HIVE和Shark項目貢獻者,SparkR主力貢獻者之一。
本文為CSDN原創(chuàng)文章