数据清洗中的10个高频操作！

学术健康 2024-12-11 00:06 上海

数据科学是一门激动人心的学科，它可以将原始数据转化为认识、见解和知识。本书目的是帮你学习使用 R 语言中最重要的数据科学工具。读完本书后，你将掌握 R 语言的精华，并能够熟练使用多种工具来解决各种数据科学难题。——《R 数据科学》

说实话，我最开始学习 R 语言是从《R 语言实战》开始的。这本书从变量类型、数据结构等基本概念切入，再介绍统计分析方法，最后是高阶技能拓展。这种方式是很考验人的，需要不断地练习代码，但又不知道怎么用。与《R 语言实战》不同，《R 数据科学》，让我们在最短时间内学会数据处理与可视化，其理念就是不谈向量、矩阵、数据框、因子、流程控制等概念，直接从数据地实操入手，尽可能在最短时间内学会数据处理与可视化。

在数据科学中，首先是进行数据导入和整理；然后通过一个反复迭代的过程来理解数据，包括转换、可视化和建模；最后，将处理结果有效地传达给其他人。一旦你导入了数据，最好对其进行整理。整洁的数据意味着，每一列都是一个变量，每一行都是一个观察值。

一旦有了整洁数据，知识生成的两个主要引擎是可视化和建模。数据科学的最后是沟通，这是任何数据分析项目中绝对关键的一部分。如果你无法将结果传达给其他人，那么你对模型和可视化图表的理解再好也没有用。

在所有这些工具周围是编程。编程是一种横跨工具，在数据科学项目的几乎每个部分都会使用。这里有一个大致的80/20规则：可以使用本书中学到的工具解决大约80%的项目，但需要其他工具来解决剩下的20%。其中，tidyverse包可提供非常优秀的数据清理、整合和可视化的“一站式服务”。

tidyverse出自 R 大神Hadley Wickham之手，是他将自己所写的包整理成了一整套数据处理的方法，包括ggplot2，dplyr，tidyr，readr，purrr，tibble，stringr, forcats。这是一套数据分析的逻辑和方法，甚至是一种思想！

########--------数据清洗，10个高频操作--------########
姓名 <- c("张三", "李四", "王五", "赵六")
日期 <- c("2024-10-08", "2024-10-28", "2024-12-01", "2023-10-26")
城市 <- c("北京", "上海", "广州", "深圳")
收入 <- c("8000", "6000", "5000", "10000")
年龄 <- c(32, 45, NA, 39)
性别 <- c("M", "F", "F", "M")

data <- data.frame(姓名, 日期, 城市, 收入, 年龄,性别, stringsAsFactors=FALSE)

library(tidyverse)

## Warning: 程序包'ggplot2'是用R版本4.4.2 来建造的

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(janitor)

## 
## 载入程序包：'janitor'
## 
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

library(lubridate)

# 重命名rename
data <- data %>%
  rename(name = 姓名, date = 日期, country = 城市, income = 收入, age = 年龄, gender = 性别)

data <- data %>% clean_names()

# 数据格式转换
data <- data %>%
  mutate(income = as.numeric(income),
         date = as.Date(date))

# 处理缺失值
data <- data %>%
  mutate(age = replace_na(age, mean(age, na.rm = TRUE)))

# 增加新列，mutate
# options(knitr.duplicate.label = "allow")
data <- data %>%
  mutate(data, score = income*0.006 + age*0.4)

# 妙用
data <- data %>%
  mutate(category = case_when(
    income < 6000 ~ "low",
    income >= 6000 & income < 8000 ~ "middle",
    income >= 8000 ~ "high")
  )

# 排序，arrange
data <- data %>%
  arrange(gender,score)

data <- data %>%
  arrange(gender,desc(score))

# 选取特定列,select
data2 <- data %>%
  select(name,income,age,score)

# 筛选特定数据,filter
data2 <- data %>%
  filter(gender == "M" & score > 60)

(data2 <- filter(data, gender == "M" & income > 6000))

##   name       date country income age gender score category
## 1 赵六 2023-10-26    深圳  10000  39      M  75.6     high
## 2 张三 2024-10-08    北京   8000  32      M  60.8     high

# 数据合并，merge
data_merge <- data %>%
  left_join(data2, by = "name")

# 删除含有缺失值的行
data_merge <- data_merge %>%
  drop_na()

以上就是R语言数据清洗的10个高频操作。这些技巧涵盖了数据清洗过程中的多个方面，主要来自tidyverse包。希望这些技巧能够帮助你更好地处理数据，提高工作效率。记住，数据清洗是一个需要不断练习和积累经验的过程。请不要害怕尝试新的方法，也不要忘记查阅文档和寻求帮助（摘自公众号BioGenius班，特别好的总结）。

参考资料：https://mp.weixin.qq.com/s/AiMpK46l5V0Eexp8kVdK7g

芒果师兄

1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路，读书，音乐和娱乐。

最新文章

重磅！Nature揭秘抗衰关键竟是它！

肿瘤免疫12讲 (中)，肿瘤的转移！

“细胞衰老实验”指南来咯！

肿瘤免疫12讲 (上)，肿瘤的发生！

王福俤教授应邀任Cell Metabolism编委！可喜可贺，凭实力入围！

肿瘤微环境的几个特征！从缺氧到酸性，再到代谢重编程，好像都挺热门的！

举报论文造假是不是成了一门生意？！

Cancer Cell | 曹雪涛院士团队新发现！CD28 促进 PD-L1 介导的免疫逃逸

这泼天富贵会落到新一代病理上吗？！mIHC+NGS联合检测或将重新定义肿瘤诊断！

Circulation重磅：上海交通大学揭秘NPM1分子心脏修复新机制

GWAS找表型+多组学定机制！这篇Nature找到调控巨噬细胞炎症反应的核心基因！

代谢分析，让单细胞数据更出彩！感谢吴博开发的scMetabolism包，能修正下就更好了~

靴子落地！eLife 93%文章将继续被WOS收录！

【芒果速递】杀伤性 T 细胞竟促进肿瘤进展

经典综述 — 肿瘤干细胞标志物

快看！癌细胞逃避免疫监视新发现

Cell揭秘卵巢癌免疫逃逸新机制：关键竟是IL-4

肺-乳腺轴上Cell：肺泡巨噬细胞如何成为乳腺癌转移的“守门人”！

数据清洗中的10个高频操作！

小鼠胸腺、脾脏、淋巴结、外周血各类免疫细胞比例参考！

攻克粉红杀手! 中国乳腺癌重要基础转化研究

代码全公开！这篇空单组揭示结直肠癌肝转移异质性的研究，又是国自然热点！

最高奖金100万！导师与博士生按6：4分，这个科技奖可以！

一篇顶百篇09！建模型，选表型，定基因，干湿结合越来越成为好文章的标配！也是国自然的标配！

临床八年制博士不再是“香饽饽”！为啥顶级医院更喜欢常规“水博”？说白了还是看文章！

干湿结合范文：SIGLEC15表达与肿瘤免疫浸润、分子亚型和乳腺癌进展相关

顶刊！2D 和 3D 空间中的肿瘤演化和微环境互作！

他！呕心沥血连发多篇 Nature，癌症克星横空出世，肿瘤领域研究将彻底被改写！

琼瑶没有做到的！退休干部瑞金医院ICU躺4年，巨额医保基本全额报销！

CXCL12+肿瘤相关内皮细胞——HCC免疫治疗新方向

我提交了这样一篇图文摘要，审稿人眼睛都亮了......

CD8 T 细胞爱吃“盐”！但盐吃太多，血管内皮细胞可受不了～

铁死亡上Cell了：西湖大学最新力作！

巨噬细胞不能太贪“锌”！两个故事，相隔七年，遥相呼应，王福俤/闵军霞教授力作！

一篇顶百篇08！再回首，经典依旧！张泽民院士团队干湿结合的论文，现在读起来仍然让人心潮澎湃！

一篇顶百篇07！这不就是临床医生发文章的最好办法吗？9 例样本发顶刊的启示录！

这个杀手很爱“镁”，没有镁会很受伤！Cell、Nature和Science 共同揭秘！

一起来认识：肿瘤预后标志物sTim-3

突破！NPM1：肿瘤免疫逃逸的新克星？

肝星状细胞竟是肿瘤帮凶！分泌趋化因子，招募巨噬细胞，抑制抗肿瘤免疫！这篇Hepatology文章，值得看看~

SDC1：癌症免疫逃逸的“盾牌”，击破它疗效可翻倍！

空间肿瘤学，又上干货!

来来来，上菜！挺好的单细胞+空转联合分析方案！

Nature Cell Biology | CDK5调控乳腺癌脑转移的免疫逃逸新机制

梅开二度，同济大学王平团队再发Nature！

真没想到，HCA 计划是两位女博士发起的！人类基因组计划有了新的意义！

复旦团队揭示三阴性乳腺癌免疫逃逸新机制！

肿瘤免疫12讲，概论（视频版）！

肿瘤研究必知靶点，PD-1！厘清两个概念！

复旦版百强医院排名，我们应该怎么看？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉