CGM第450期:基于DNA语言模型的跨物种植物基因组单碱基精度功能预测

文摘   2024-11-06 18:12   瑞典  
CGM将于北京时间11月12日星期二 09:00 PM 举办在线沙龙活动。本期我们有幸邀请到康奈尔大学博士后翟晶晶分享:基于DNA语言模型的跨物种植物基因组单碱基精度功能预测。欢迎参加!!!

本次活动涉及未发表数据,不提供录播。

嘉宾简介

翟晶晶博士2022年在西北农林科技大学获得生物信息学博士学位,现为康奈尔大学Edward Buckler教授实验室博后。研究方向为:通过运用机器学习/深度学习技术,整合群体基因组、转录组等生物大数据,挖掘并注释植物中的功能性变异,揭示作物表型与基因型之间的复杂关联,为农作物遗传改良提供科学依据与参考。

内容摘要

由于植物基因组的高度复杂多样性,跨物种预测面临巨大挑战。本研究借助大语言模型的最新进展,基于16种被子植物的基因组预训练了植物基因组模型PlantCaduceus,以学习被子植物中DNA序列的“语言”模式。随后,我们对PlantCaduceus模型进行微调,并将其应用于转录和翻译的起始和终止位点预测。结果显示,PlantCaduceus在跨物种预测中表现出最佳精度,同时还能够识别全基因组范围内的有害变异,其性能与当前最先进的蛋白质语言模型ESM2相当。此外,PlantCaduceus还成功鉴定出拟南芥和玉米基因组中的已知因果变异。

关键词深度学习,DNA语言模型,基因功能注释,有害变异

参考文献:

1. Zhai J, Gokaslan A, Schiff Y, Berthel A, Liu ZY, Miller ZR, Scheben A, Stitzer MC, Romay MC, Buckler ES, Kuleshov V. Cross-species modeling of plant genomes at single nucleotide resolution using a pre-trained DNA language model. bioRxiv. 2024 Jun 5:2024-06.

  参加方式


2024年11月12日 星期二 09PM(北京)

2024年11月12日 星期二 02PM(欧中)

2024年11月12日 星期二 08AM(美东)


Zoom会议链接: https://us06web.zoom.us/j/87870509801?pwd=SGpvdEc3YVRQL2twTmJyenhnTDFrZz09


Zoom会议ID:878 7050 9801

密码:207409

更多途径关注我们

BilibiliCGMonline 欢迎点赞、关注、投币!

CGM网站:cgmonline.co

微信群: 请添加微信"ll68551551"申请加群,并请注明"CGM+姓名单位"。



CGM基因组沙龙
华人基因组学在线沙龙,华人学者学术交流平台(https://cgmonline.co)
 最新文章