數(shù)據(jù)過濾:filter(), where() 排序:sortDF(), orderBy() 列操作:增加列- withColumn(),列名更改- withColumnRenamed(),選擇若干列 -select()、selectExpr()。為了更符合R用戶的習(xí)慣,SparkR還支持用$、[]、[[]]操作符選擇列,可以用$<列名> <- 的語法來增加、修改和刪除列 RDD map類操作:lapply()/map(),flatMap(),lapplyPartition()/mapPartitions(),foreach(),foreachPartition() 數(shù)據(jù)聚合:groupBy(),agg() 轉(zhuǎn)換為RDD:toRDD(),toJSON() 轉(zhuǎn)換為表:registerTempTable(),insertInto() 取部分?jǐn)?shù)據(jù):limit(),take(),first(),head()
編程示例
總體上看,SparkR程序和Spark程序結(jié)構(gòu)很相似。
基于RDD API的示例
要基于RDD API編寫SparkR程序,首先調(diào)用sparkR.init()函數(shù)來創(chuàng)建SparkContext。然后用SparkContext作為參數(shù),調(diào)用parallelize()或者textFile()來創(chuàng)建RDD。有了RDD對象之后,就可以對它們進(jìn)行各種transformation和action操作。下面的代碼是用SparkR編寫的Word Count示例:
7/11 首頁 上一頁 5 6 7 8 9 10 下一頁 尾頁