一般来说,载入的R包越少越好,除非这个R包不可替代。
其中添加了一个函数sort_by(),对于数据清理来说非常有帮助,这个函数有挑战{dplyr}包中的arrange()函数的潜力。下一步,使用最新的sort_by()函数对第一个变量进行排序:sort_by(iris, iris$Sepal.Length)
上述的结果仅显示前10行。对比上面的两个结果可知,上述代码将按照第一个变量进行从小到大的排序。
也可以对多个变量进行排序,这里以两个为例,代码如下:sort_by(iris, list(iris$Species, iris$Sepal.Length))
R将返回所有行数,上述仅为一部分。上述的代码先对Species排序,之后对Sepal.Length进行排序。
下面,列出两段代码,一个为R自带函数,另外一个为使用{dplyr}的函数,用于处理数据清理工作。iris |>
sort_by(~ list(Species, Petal.Width)) |>
subset(Sepal.Length > 5) |>
subset(select = c(Species, Sepal.Length, Petal.Width)) |>
transform(new_variable = log(Petal.Width)) |>
aggregate(. ~ Species, FUN = mean, data = _)
install.packages("dplyr") # 安装R包
library(dplyr) # 载入
iris %>%
arrange(Species, Petal.Width) %>%
filter(Sepal.Length > 5) %>%
select(Species, Sepal.Length, Petal.Width) %>%
mutate(new_variable = log(Petal.Width)) %>%
group_by(Species) %>%
summarise(mean_Sepal.Length = mean(Sepal.Length),
mean_Petal.Width = mean(Petal.Width),
mean_new_variable = mean(new_variable))
关于如何选择,各位自己做决定。好啦,今天的内容就到这里。如果有帮助,记得分享给需要的人!【通过公众号菜单栏--线上课程--新手课程/回归课程】公众号核心成员担任SCI杂志Associate Editor!▌课程相关咨询可添加R师妹微信: kefu_rstats