从不会到不怕——用R语言搞懂t-SNE

文摘 2024-11-16 05:30 德国

t-SNE（t-distributed Stochastic Neighbor Embedding）是一种帮助我们将高维数据变成低维数据的工具，这样我们可以在二维或三维的图中看到数据的分布情况。

假设你有一份数据，里面记录了很多样本，比如每种花的多个特征（比如花瓣长度、花瓣宽度等）。我们想知道这些花在特征空间中的分布，看看是否能找到一些聚类现象（即相似的花种在一起，不同的花种分开）。t-SNE 可以帮助我们把这些高维数据"压缩"成二维或三维，以便观察。

t-SNE 的基本步骤

在高维空间中计算相似度：

t-SNE 的第一步是计算每个点（数据样本）与其他点的“相似度”。相似度越高，意味着两个样本在高维空间中越接近。
具体计算方法是：从一个点出发，根据它到其他点的距离来计算相似度，距离越近，相似度越高。可以想象为，靠近的点会吸引，远离的点会排斥。

在低维空间中计算相似度：

一开始，我们随机把数据点放在低维空间（比如一个二维平面）中，然后计算它们的相似度。
这一步和高维空间的相似度计算类似，但是我们使用 t-分布来计算，这种分布能让低维空间的点更容易分开，避免所有点挤在一起。

优化：让低维空间的相似度尽量接近高维空间的相似度：

t-SNE 会不断地移动低维空间中的点，使得低维空间中的相似度尽量接近高维空间中的相似度。
举个例子，如果两个点在高维空间中非常接近，t-SNE 会尽量让它们在二维平面中也靠得很近；如果两个点在高维空间中距离较远，它们在二维平面中也应该保持距离。
这种不断调整和优化的过程，确保了降维后的结果能保留高维空间中的聚类和结构信息。

用 R 实现 t-SNE 示例

# 安装和加载必要的包install.packages("Rtsne")library(Rtsne)install.packages("ggplot2")library(ggplot2)
# 加载鸢尾花数据集data(iris)iris_data <- iris[, 1:4]  # 只使用数值特征，不包含种类标签
# 运行 t-SNE 算法set.seed(42)  # 设置随机种子，保证结果可复现tsne_result <- Rtsne(iris_data, dims = 2, perplexity = 30, verbose = TRUE, max_iter = 500)
# 将结果转换为数据框tsne_data <- as.data.frame(tsne_result$Y)tsne_data$Species <- iris$Species
# 绘制 t-SNE 结果图ggplot(tsne_data, aes(x = V1, y = V2, color = Species)) +  geom_point(size = 2) +  labs(title = "t-SNE on Iris Dataset") +  theme_minimal()

结果分析

代码运行后，你会得到一个二维散点图。在这个图中：

三种不同颜色的点代表三种不同的鸢尾花。
可以看到三种花在二维空间中形成了三个簇，这意味着 t-SNE 成功保留了高维空间中三类花的分布信息。

t-SNE 的关键点

perplexity 参数：决定 t-SNE 关注每个点的“邻居”数量。简单来说，它代表了一个平衡点，值越高，考虑的邻居越多。可以通过调整 perplexity 来观察对结果的影响。
慢速优化：t-SNE 逐步调整低维点的位置，尽量还原高维空间中的结构关系。因此它适合中小规模的数据集，数据太大时会比较慢。
随机性：由于初始点的位置是随机的，每次运行结果可能会略有不同。使用 set.seed() 固定随机数可以使结果一致。

http://mp.weixin.qq.com/s?__biz=MzI0NTU2NzAxNw==&mid=2247486810&idx=2&sn=9dbf87bc574748433e215a180fad09df

Dr Leo

ENT医生的科研分享

最新文章

T细胞反应的五个阶段

从不会到不怕——用R语言搞懂高斯朴素贝叶斯

一文搞懂ATAC测序

从不会到不怕——朴素贝叶斯

一文搞懂VEGF通路

从不会到不怕——用R语言搞懂t-SNE

独占鳌头！ 95后研究员连发三篇国际顶刊！引爆学术界核弹！

一文搞懂TGF-β信号通路

从不会到不怕——K-means聚类

一文搞懂细胞周期检查点

一文搞懂Cyclin和CDK

从不会到不怕——用R语言搞懂PCA

一文搞懂ddPCR

Toll-Like Receptor (TLR) 信号通路

从不会到不怕——用R语言搞懂Logistic回归

一文读懂IL-2

一文搞懂 IL-6

从不会到不怕——利用线性模型进行T检验和方差分析 (ANOVA)

一文搞懂中性粒细胞外陷阱

从不会到不怕 —— 多元回归

一文搞懂 IL-1

从不会到不怕——线性回归

一文搞懂干扰素

从不会到不怕——多基因风险评分

一文搞懂 RNA interference(RNAi)

你真的搞懂了ROC和AUC吗？

肥大细胞与肿瘤的互作

抗体依赖的细胞介导的细胞毒性（ADCC）

“四两拨千斤”的小分子——趋化因子

《Nature Reviews Genetics》合集——基因组学中的机器学习

“混血”免疫细胞 —— NKT细胞

机器学习基础 —— 混淆矩阵

机器学习基础 —— 交叉验证

一文搞懂共聚焦显微镜

机器学习入门 —— 引子

关于Th2细胞你需要知道这些

DNA损伤反应及修复

关于Th1细胞你需要知道这些

关于Th17细胞你需要知道这些

T细胞全家福：T细胞亚型

一文读懂二代测序（NGS）

善变的免疫细胞 —— 巨噬细胞极化

巨噬细胞亚型 —— M1 vs M2

史上最强！青年博士耗时多年，破解医学领域3大难题！无不称奇！

T细胞分化的前世今生

T细胞激活的三大信号及调控

一文搞懂蛋白质组学

一文搞懂流式细胞术pro

qPCR，你真的懂吗？

药效评价密码——IC50值（文末附绘图代码）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉