python单细胞学习笔记-day4

学术 2025-01-13 18:33 广东

前面，我们生信技能树的讲师小洁老师与萌老师新开了一个学习班：《掌握Python，解锁单细胞数据的无限可能》，身为技能树的一员，近水楼台先得月，学起！下面是我的学习笔记，希望可以给你带来一点参考

前面的学习笔记：

今天继续学习！一口气学完day3部分视频吧！

touch day3.ipynb

正式开始上课 10:06

在jupyter lab 里面使用小环境里面的库

我这里用的vscode 连接服务器，使用 jupyter 插件，选择库就是页面的右上角，直接进行选择：

这里开始到day3 视频的01:06:22部分，都是以前知识点和操作的复习

1.列表的排序、统计和去重复 01:06:22

1.1 排序

.sort()方法：修改原变量
sorted()函数：不修改原变量
降序：reverse=True

1.2 统计和去重

可以使用 numpy 模块里面的unique函数，适用于数组和列表

np.unique()：去重
np.unique(return_counts=True)：去重并统计每个取值的次数

pandas：为series提供相应方法

.tolist()：series向list转换
list()：array 向 list转换

也可以使用集合，集合自动去重

2.矩阵 01:20:19

numpy 矩阵：没有行名和列名
numpy 矩阵：推荐只存放一种数据类型的数据，但可允许多种数据类型

2.1 新建矩阵

使用numpy模块中的array()函数

2.2 取子集

使用下标和切片法：

2.3 矩阵和数据转换

矩阵转为数据框，可以加上行名和列名
数据框转为矩阵，有三种方法。Note：会丢失行名和列名

df2.values
df2.to_numpy()
np.array(df2)

2.4 转置

m1.T

3.数据框

3.1 新建数据框

方式1：

DataFrame函数：创建一个字典，然后传递给pandas中的DataFrame()函数
可以使用index参数指定行名

方式2：从csv文件读取

import pandas as pd 

df2 = pd.read_csv("day3_preview/gene.csv")
print(df2)

# 设置第一列为行名
df2 = pd.read_csv("day3_preview/gene.csv",index_col=0)
print(df2)

3.2 数据框提取列

提取一列：点号或者[]，如果列名有空格，不能使用点号

print(df1.gene)
print(df1['gene'])
type(df1.gene) # 返回series
df1.gene.tolist() # series 转为list
df1[['gene']] # 返回数据框

提取多列：在方括号里面写有列名组成的列表

3.3 提取行和列

.iloc：基于整数位置
loc：基于标签（行名或者列名）或是布尔值

import pandas as pd 

df1 = pd.DataFrame({
 'gene': ['gene' + str(i) for i in range(1,5)],
 'change': ['up','up','down','down'],
 'score': [5,3,-1,-3]
})
print(df1)

# 读取第一行, 不写逗号默认读取行
# 以下方式返回的都是series
print(df1.iloc[0])
print(df1.iloc[0,])
print(df1.iloc[0,:])

提取多行多列：

.loc() 按照行名列名取子集

.loc按照布尔值取子集：使用多个条件时，可以用and/or/&/|运算符

3.4 属性

写法与method类型，不带括号

df1.shape
df1.index # 行名
df1.columns # 列名

3.5 初级统计方法

1）统计量计算

.median()
.min()
.max()
.var()
.std()
.sum()

2）去重：.drop_duplicates()

print(df1.drop_duplicates(subset='change'))

3）计数：.value_counts()

df1.change.value_counts()

4）排序：.sort_value()

df1.sort_values('score')
df1.sort_values('score',ascending=False)

今天就学到这里！

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

miRNA体外诊断试剂盒可靠吗？

转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

物种Beta多样性PCoA分析

Benchmarking：新鲜出炉的单细胞自动化癌细胞注释

nature communications 杂志同款三元图：Ternary plots

ggplot2（r包）绘制基因棒棒糖图

画出像烟花一样的单细胞umap图，原因竟然是？

G3viz（r包）绘制基因棒棒糖图

Omni-ATAC：更新和优化的ATAC-seq协议（NatProtoc）

GenVisR（r包）介绍：基因组可视化工具

生信技能树2025年展望

春节期间单细胞转录组数据分析全免费

再牛叉的技术也无法解决你网络问题（但是政策可以啊）

Python应该要会一点吧

绘制NC杂志同款高颜值小提琴图

maftools（r包）绘制棒棒图等

IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗？

trackview（r包）包绘制基因棒棒图

公众号已经接入人工智能大模型啦！

如何使用 uniprot ID 进行 KEGG 和 GO 富集？

如何对应两个不同单细胞数据集的分群结果？

python单细胞学习笔记-day6

综述：ATAC-Seq 数据分析工具大全

北京大学—统计基因组与遗传流行病学、功能与单细胞多组/AI方向诚聘博士后

python版本的功能富集分析：GSEApy

在这里看有哪些配色，2500+种！一键复制超方便

给你的单细胞umap图加个cell杂志同款的圈

python单细胞学习笔记-day5

喜大普奔，从此就没有了四青人才！

掌握Python，解锁单细胞数据的无限可能

python单细胞学习笔记-day4（续）

这种作者只提供了每组多个重复样本合并后数据的怎么办

年度总结 | 2024年Nature Communications计算生物学方法论文精选

高颜值复杂热图绘制小技巧

housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗？

65款单细胞亚群注释工具你用过几款？

一种很新的功能富集结果展示方法

100篇！华大时空组学Stereo-seq助力生命科学成果大爆发

单个基因在单细胞里面如何分析呢？

三种方式下载GEO芯片注释文件GPL

单基因绘制组间差异箱线图及ROC曲线

线粒体基因缺失之谜

python单细胞学习笔记-day4

顶刊 Science 文献两分组差异结果比较图复现

KEGG富集结果7大分类展示

5种方式美化你的单细胞umap散点图

python单细胞学习笔记-day3

顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么？

python单细胞学习笔记-day1

python单细胞学习笔记-day2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉