在生物与医学相关研究领域,研究人员经常需要频繁搜索特定基因或术语的信息以获取详细解释,并将这些内容翻译成自己的母语以便于理解。这个过程在进行单细胞分析时显得尤为繁琐与耗时。为了应对这一问题,名为Fanyi的R包应运而生,提供了一套便捷的功能,能够自动对基因信息进行检索并无缝翻译成多种语言。通过整合百度、必应、有 道、火山引擎、彩云、腾讯和ChatGLM等在线翻译服务,Fanyi允许用户轻松地将研究成果翻译成他们的母语。这种创新方法消除了语言障碍,使研究人员能够快速理解其发现的重要性,专注于科学探索,并在研究社区内促进多语言文化的发展。点击阅读原文,查看文章详细介绍及工具发布地址,欢迎研究者朋友们关注使用。
Fanyi 能实现高效的基因信息整合
Fanyi包能够批量检索基因信息,显著简化了研究人员在搜索和总结基因功能时的工作量。研究展示了如何利用fanyi便捷地查找并整合基因信息。研究使用Seurat包示例数据中的2,700个外周血单核细胞(PBMC)数据集作为例子。通过整合FindAllMarkers和gene_summary的输出,fanyi为用户提供了包含基因表达水平等信息以及基因描述与基因功能总结的综合表格。这使得研究人员可以更好地理解和解释不同细胞簇中的标记基因角色。
比如在本例中,标记基因CCR7在Naive CD4 T细胞中高表达。从fanyi提供的基因功能总结中可以得知,编码的G蛋白偶联受体参与记忆T细胞迁移和树突状细胞成熟,表明该细胞群可能与免疫监测和响应有关。另一个标记基因LGALS2在CD14+单核细胞中高表达,编码的β-半乳糖苷结合凝集素与淋巴毒素-α结合,能改变转录水平并增加心肌梗死风险。同时在鼠后肢模型中,注射LGALS2抗体能增加灌注恢复、平均小动脉直径及动脉周围M2巨噬细胞数量,从而分泌抗炎因子如IL-10和TGF-β,缓解炎症反应并促进损伤组织愈合。这些信息表明,这些细胞簇在炎症反应和免疫调节中扮演重要角色。
图1 包含基因表达水平等信息、基因描述与基因功能总结的综合表格
Fanyi 协助创建易于理解的信息图表
Fanyi包中的gene_summary函数查询的基因描述信息还可以被用于数据可视化,提供更有信息量的图表。利用ggsc包,研究展示了如何通过小提琴图可视化标记基因在不同细胞簇中的表达分布,并将基因摘要信息显示在图表旁边,帮助用户理解结果。例如, S100A6在CD14+单核细胞中高表达。从摘要信息中我们了解到,其编码的S100蛋白家族成员参与细胞周期进程和分化。而进一步结合参考文献可以得知,康复的重症COVID-19患者的炎性单核细胞簇中高表达S100A6基因,这些细胞具有高HLA-Ⅱ基因表达。同时,S100A6+巨噬细胞亚群还与非酒精性脂肪肝中的血管生成有关。这些信息表明,S100A6在CD14+单核细胞中的关键作用可能涉及炎症调节和组织修复。
同时,研究还PBMC数据集进行进一步可视化,展示了细胞聚类结果和CD3E基因在不同细胞中的表达密度图。并将fanyi获取的基因描述作为图表的副标题,同时将基因功能小结信息以图注的形式呈现,使得对数据的解释变得更加直观和易于理解。从图中可以发现,CD3E在CD4 T细胞、CD8 T细胞和NK细胞中高表达。而在当前人类免疫细胞的标记基因中,CD45阳性通常被认为是白细胞,进一步分为淋巴细胞和髓系细胞。其中高表达CD3的淋巴细胞是T细胞或NK细胞。而CD3E是T细胞受体复合体的重要组成部分,对于CD4+和CD8+ T细胞以及自然杀伤细胞的免疫功能至关重要。
图2 利用Fanyi获取的基因信息结合可视化图形以绘制综合信息图表
Fanyi 利用AI驱动的翻译服务帮助研究人员快速消化信息
语言障碍使得专业内容难以被迅速理解和吸收,同时也妨碍了研究人员有效表达和传递信息。Fanyi包通过多种AI驱动的翻译服务,能够高效地批量自动转换来自多种语言的信息。以人类气道平滑肌细胞RNA-Seq数据集作为例子,研究展示了如何使用Fanyi包高效地将基因ID转换为中文,使研究人员不再为翻译专业术语而烦恼。同时还展示了如何使用Fanyi包中的translate_ggplot函数,仅需调用一行函数即可快捷地翻译ggplot绘制的图表中的词汇和句子。这大大降低了非英语母语的研究人员理解和解释科研结果的难度。
图3 Fanyi利用AI对科研结果进行翻译
总 结
Fanyi包通过其强大的基因信息整合和多语言翻译功能,以及其简单易用的特性,显著提升了研究的效率。它通过在线检索基因信息,节省了研究者大量的时间,并借助于翻译功能,使得基因功能信息能够快速被理解,为快速洞察和解释生物学数据提供便利。使用其翻译功能,还有助于非英语母语的研究人员将科学发现翻译成英语或者多种语言,助力于科学传播,有助于促进学术社区的多语言环境。
作|者|介|绍
通信作者:余光创
教授,博士,博士生导师;南方医科大学 生物信息学教研室 主任。以第一或通讯作者论文30篇,包括Nature Procols、The Innovation(4x)、Gut Microbes、Molecular Biology and Evolution(3x)、Briefings in Bioinformatics,论文总引用超过 4万次,9篇ESI高被引论文,单篇论文最高被引超过2万次,入选科睿唯安2023年度全球高被引学者,连续3年入选爱思唯尔中国高被引学者。
第一作者:王荻霏
现就读于南方医科大学第一临床医学院临床医学五年制专业。曾作为项目负责人参与省级大学生创新创业训练计划项目,在校成绩优异,多次参与各项比赛。
END
供稿|王荻霏
编辑|季媛媛