python单细胞学习笔记-day5

学术 2025-01-21 20:51 广东

前面，我们生信技能树的讲师小洁老师与萌老师新开了一个学习班：《掌握Python，解锁单细胞数据的无限可能》，身为技能树的一员，近水楼台先得月，学起！下面是我的学习笔记，希望可以给你带来一点参考。

前面的学习笔记：

今天继续学习视频：python_day5 ！一口气学完吧！

touch day5.ipynb

课前复习到 30:29

plotnine语法

plotnine是python版的ggplot2，有一些细节不同。

一句代码前后要加()
列名要带引号
形状不能用数字
用加号连接的代码不缩进

示例数据

还是使用的seaborn模块里面的iris数据：

import pandas as pd
iris = pd.read_csv("day4/iris.csv")
iris.head()

安装一下今天需要使用的模块：

# bash终端
conda activate sc
pip install plotnine -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

pip install patchworklib -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

导入模块：这里引入了plotnine里面所有的函数，这样就不需要每次都写plotnine.xx函数。

from plotnine import *

1.入门级绘图模版

需要的数据：横坐标、纵坐标，需要卸载aes的括号里面

(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length')))

非常具有ggplot2的风格！

2.属性设置

属性包括：

属性	参数
颜色	color
大小	size
形状	shape
透明度	alpha
填充颜色	fill

2.1 统一设置

统一设置需要设为有意义的值。

颜色：字符串，blue，red或者颜色编码（后面介绍）
大小：单位mm
形状：数字编号表示

shape	o	.	,	v	^	<	>	1	2	3	4	s	p	*	h	H	+	x	D	d
形状	圆圈	点	像素点	倒三角	正三角	左三角	右三角	下箭头	上箭头	左箭头	右箭头	正方形	五角形	星号	六边形	另一种六边形	加号	叉号	菱形	瘦菱形

修改颜色：color='blue'

(ggplot(data=iris) + 
 geom_point(aes(x='sepal_length', y='petal_length'), 
            color='blue'))

修改其他属性 size=5、alpha=0.5、shape='*'

(ggplot(data=iris) + 
 geom_point(aes(x='sepal_length', y='petal_length'), 
            size=5,     # 点的大小5mm
            alpha=0.5,  # 透明度 50%
            shape='*'))   # 点的形状

2.2 映射：按照数据框的某一列来定义图的某个属性

根据“species”列来定义“颜色”这个属性，即：相同的值是相同的颜色，不同的值对应不同的颜色，有三个值所以自动分配了三种颜色。

note：需要写到aes括号里面。

(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species')))

2.2.1 自行指定映射的具体颜色

可以使用 scale_xx_manual 的函数

具体的颜色名：

(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species')) +
 scale_color_manual(values=['blue', 'green', 'red']))

颜色编码：

# 十六进制颜色
(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species')) +
 scale_color_manual(values=['#2874C5', '#e6b707', '#f87669']))

2.2.2 最好的配色库pypalettes

上一节课也出现了这个配色网址：在这里看有哪些配色，2500+种！https://python-graph-gallery.com/color-palette-finder/

import pypalettes 
cs = pypalettes.load_cmap('Abbott')
cs.colors

(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species')) +
 scale_color_manual(values=cs.colors))

很方便换主题：

# 直接在这里换主题即可
pypalettes.load_cmap('a_palette')

2.2.3 区分color和fill参数

默认实心
如需空心形状，写fill = 'none'

# 实心形状，用color设置颜色
(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species'), 
            shape='^',size = 3))

空心：fill = 'none'

shape='h'：六边形

# 空心形状，fill = 'none'
(ggplot(data=iris) +
 geom_point(aes(x='sepal_length', y='petal_length', color='species'), 
            shape='h',size = 3, fill='none'))

同时设置边框和填充色：红绿搭配，干活不累，哈哈哈哈

# 双色,color设置边框颜色，fill设置填充颜色
(ggplot(data=iris) +  
 geom_point(aes(x='sepal_length', y='petal_length'), 
            shape='^', 
            color='red', 
            fill='green',
            size = 3))

3.几何对象

几何对象：geom_开头的函数

可以在同一个图里面面叠加多个几何对象，但是代码变得罗嗦了：写了两遍aes(x='sepal_length', y='petal_length')。

(ggplot(data=iris) + 
 geom_smooth(aes(x='sepal_length', y='petal_length')) +
 geom_point(aes(x='sepal_length', y='petal_length')))

简化：将aes(x='sepal_length', y='petal_length')放在ggplot括号里

(ggplot(data=iris, mapping=aes(x='sepal_length', y='petal_length')) +
 geom_smooth() +
 geom_point())

4.位置调整

geom_point()：相同位置的点重叠在一起，信息被隐藏

(ggplot(data=iris, mapping=aes(x='species', y='sepal_width')) + 
 geom_boxplot(aes(fill='species'),alpha = 0.5) +
 geom_point())

解决办法：使用 geom_jitter函数

(ggplot(data=iris, mapping=aes(x='species', y='sepal_width')) + 
 geom_boxplot(aes(fill='species'),alpha = 0.5) +
 geom_jitter())

5.坐标系

使用coord_flip() 进行坐标轴翻转：

(ggplot(data=iris, mapping=aes(x='species', y='sepal_width')) + 
 geom_boxplot(aes(fill='species'),alpha = 0.5) +
 geom_jitter() + 
 coord_flip()) #横纵坐标互换

6.主题

改一个试试：theme_bw()

# theme_bw()
(ggplot(data=iris, mapping=aes(x='species', y='sepal_width')) + 
 geom_boxplot(aes(fill='species'),alpha = 0.5) +
 geom_jitter() + 
 theme_bw())

theme_classic()：

# theme_classic()
(ggplot(data=iris, mapping=aes(x='species', y='sepal_width')) + 
 geom_boxplot(aes(fill='species'),alpha = 0.5) +
 geom_jitter() + 
 theme_classic())

7.保存

使用ggsave()：

p = (ggplot(data=iris, mapping=aes(x='species', y='sepal_width', fill='species')) + 
 geom_boxplot(alpha = 0.5) +
 geom_jitter() + 
 theme_bw())
ggsave(p,filename="boxplot.png")

8.拼图

使用 patchworklib模块：

import patchworklib as pw

p1 = (ggplot(data=iris) +
      geom_point(aes(x='sepal_length', y='petal_length')))

p2 = (ggplot(data=iris) +
      geom_boxplot(aes(x='species', y='sepal_length')))

# 使用patchworklib加载plotnine图表
g1 = pw.load_ggplot(p1, figsize=(2,3))
g2 = pw.load_ggplot(p2, figsize=(2,3))
g1|g2

下一个知识点讲解 01：42：28

1.NA缺失值

判断是否是缺失值：pd.isna()
插补缺失值：pd.fill_na()

1.1 判断是否是缺失值

在python中，NaN、NULL、NA、None都是缺失值的意思，但在R语言：

NaN表示非数值(Not a Number)，计算0/0或者计算负数的平方根时会得出。
NULL表示没有、不存在
NA 表示缺失值，特指存在但未知的值。
含缺失值的数据集非常常见。写代码时提到缺失值要写None或者是np.NaN，np.NAN,np.nan。

构造一个含有缺失值的数据框：写的时候是None，但是显示为NaN，python中这两者不区分。

import pandas as pd

df = pd.DataFrame({'gene':['gene1','gene2','gene3'],
                   'sample1':[None,16.0,3.0],
                   'sample2':[2,11,1]})
print(df)

# 判断是否含有缺失值
pd.isna(df.sample1)

# 统计有多少个缺失值
df['sample1'].isna().value_counts()

1.2 插补缺失值

.fillna()函数：将列中的所有缺失值替换为提供的值。

例如：将 sample1 列里面的 NA 填充上该列的平均值，传递给 f 列：

df['sample1_f'] = df['sample1'].fillna(df['sample1'].mean())
print(df)

2.Apply 和自定义函数

计算每行/每列的函数运算结果，例如平均值

python 里的apply是axis = 1表示行，0表示列, 0是默认值

2.1 示例数据

使用 pandas 构建一个数据框：

import pandas as pd
import numpy as np

# 固定随机种子，保证结果可复现
np.random.seed(42)  
df = pd.DataFrame({
    'student_id': range(1, 11),  # 学生ID
    'student_group':['group1']*5+['group2']*5,
    'math_score': np.random.randint(50, 100, 10),  # 数学分数
    'english_score': np.random.randint(50, 100, 10),  # 英语分数
})
print(df)

2.2 apply + 现有的函数

var：方差
axis = 1：按行

# 两列求方差
df[['math_score','english_score']].apply('var') 

# 每一行求标准差
df[['math_score','english_score']].apply('std',axis = 1) 

# 现有函数
df[['math_score','english_score']].std(axis=1)

2.3 apply + 自定义函数

def：是自定义函数，后面跟函数名称（参数）

自定义一个函数：

def calculate_grade(score):
    if score >= 90:
        return 'A'
    elif score >= 80:
        return 'B'
    elif score >= 70:
        return 'C'
    elif score >= 60:
        return 'D'
    else:
        return 'F'

3.groupby 完成分组计算

例如：计算 group1 和 group2 组的学生数学平均分是多少

import pandas as pd
import numpy as np

# 固定随机种子，保证结果可复现
np.random.seed(42)  
df = pd.DataFrame({
    'student_id': range(1, 11),  # 学生ID
    'student_group':['group1']*5+['group2']*5,
    'math_score': np.random.randint(50, 100, 10),  # 数学分数
    'english_score': np.random.randint(50, 100, 10),  # 英语分数
})
print(df)

df.groupby('student_group')['math_score'].mean()

agg()函数：

# 计算group1和group2组学生的数学分数的最小值、最大值、和
# 一列
print(df.groupby("student_group")["math_score"].agg(['min', 'max', 'sum']))

# 多列：数学 和英语
result = df.groupby("student_group").agg({
    "math_score": ["min", "max", "sum"],
    "english_score": ["min", "max", "sum"]
})
print(result)

4.综合应用

4.1 批量读取文件

os.listdir()函数：
使用for循环读取
使用推导式读取

index_col=0：第一列读取为行名

import os
import pandas as pd

files = os.listdir('day5/raw_data')
print(files)

# 使用`for`循环读取 
result = []
for x in files:
    result.append(pd.read_table("day5/raw_data/"+x,index_col=0,header = None,names = [x]))
print([x.shape for x in result])

使用推导式去读

import os
import pandas as pd

files = os.listdir('day5/raw_data')
print(files)

# 使用推导式完成读取

result2 = [pd.read_table("day5/raw_data/"+x,index_col=0,header = None,names = [x]) for x in files]

print([x.shape for x in result2])
# 查看一个文件内容
print(result2[0].head())

4.2 合成一个表达矩阵

使用 pd.concat() 函数，axis=1按照列合并

re = pd.concat(result2, axis=1)
print(re.head())
print(re.iloc[0:4,0:4])

4.3 清除不以ENSG开头的行

re = re[re.index.str.startswith('ENSG')]
re.shape

4.4 找出方差最大的10个基因

axis = 1：按行
sort_values：排序
ascending = False：降序排列
.index：输出行名

re.var(axis = 1).sort_values(ascending = False).head(10).index

更简洁的办法：

.nlargest()：最大的几个
.nsmallest()：最小的几个

genes = re.var(axis = 1).nlargest(10).index
print(genes)

genes = re.var(axis = 1).nlargest(10)
print(genes)

第五天的视频刷完~

文末友情宣传：

生信入门&数据挖掘线上直播课2025年1月班

时隔5年，我们的生信技能树VIP学徒继续招生啦

满足你生信分析计算需求的低价解决方案

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

miRNA体外诊断试剂盒可靠吗？

转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

物种Beta多样性PCoA分析

Benchmarking：新鲜出炉的单细胞自动化癌细胞注释

nature communications 杂志同款三元图：Ternary plots

ggplot2（r包）绘制基因棒棒糖图

画出像烟花一样的单细胞umap图，原因竟然是？

G3viz（r包）绘制基因棒棒糖图

Omni-ATAC：更新和优化的ATAC-seq协议（NatProtoc）

GenVisR（r包）介绍：基因组可视化工具

生信技能树2025年展望

春节期间单细胞转录组数据分析全免费

再牛叉的技术也无法解决你网络问题（但是政策可以啊）

Python应该要会一点吧

绘制NC杂志同款高颜值小提琴图

maftools（r包）绘制棒棒图等

IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗？

trackview（r包）包绘制基因棒棒图

公众号已经接入人工智能大模型啦！

如何使用 uniprot ID 进行 KEGG 和 GO 富集？

如何对应两个不同单细胞数据集的分群结果？

python单细胞学习笔记-day6

综述：ATAC-Seq 数据分析工具大全

北京大学—统计基因组与遗传流行病学、功能与单细胞多组/AI方向诚聘博士后

python版本的功能富集分析：GSEApy

在这里看有哪些配色，2500+种！一键复制超方便

给你的单细胞umap图加个cell杂志同款的圈

python单细胞学习笔记-day5

喜大普奔，从此就没有了四青人才！

掌握Python，解锁单细胞数据的无限可能

python单细胞学习笔记-day4（续）

这种作者只提供了每组多个重复样本合并后数据的怎么办

年度总结 | 2024年Nature Communications计算生物学方法论文精选

高颜值复杂热图绘制小技巧

housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗？

65款单细胞亚群注释工具你用过几款？

一种很新的功能富集结果展示方法

100篇！华大时空组学Stereo-seq助力生命科学成果大爆发

单个基因在单细胞里面如何分析呢？

三种方式下载GEO芯片注释文件GPL

单基因绘制组间差异箱线图及ROC曲线

线粒体基因缺失之谜

python单细胞学习笔记-day4

顶刊 Science 文献两分组差异结果比较图复现

KEGG富集结果7大分类展示

5种方式美化你的单细胞umap散点图

python单细胞学习笔记-day3

顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么？

python单细胞学习笔记-day1

python单细胞学习笔记-day2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

python单细胞学习笔记-day5

课前复习到 30:29

plotnine语法

示例数据

1.入门级绘图模版

2.属性设置

2.1 统一设置

修改颜色：color='blue'

修改其他属性 size=5、alpha=0.5、shape='*'

2.2 映射：按照数据框的某一列来定义图的某个属性

2.2.1 自行指定映射的具体颜色

2.2.2 最好的配色库pypalettes

2.2.3 区分color和fill参数

3.几何对象

4.位置调整

5.坐标系

6.主题

7.保存

8.拼图

下一个知识点 讲解 01：42：28

1.NA缺失值

1.1 判断是否是缺失值

1.2 插补缺失值

2.Apply 和自定义函数

2.1 示例数据

2.2 apply + 现有的函数

2.3 apply + 自定义函数

3.groupby 完成分组计算

4.综合应用

4.1 批量读取文件

4.2 合成一个表达矩阵

4.3 清除不以ENSG开头的行

4.4 找出方差最大的10个基因

文末友情宣传：

下一个知识点讲解 01：42：28