注:本次活动涉及未发表数据,不提供录播。
翟晶晶博士2022年在西北农林科技大学获得生物信息学博士学位,现为康奈尔大学Edward Buckler教授实验室博后。研究方向为:通过运用机器学习/深度学习技术,整合群体基因组、转录组等生物大数据,挖掘并注释植物中的功能性变异,揭示作物表型与基因型之间的复杂关联,为农作物遗传改良提供科学依据与参考。
由于植物基因组的高度复杂多样性,跨物种预测面临巨大挑战。本研究借助大语言模型的最新进展,基于16种被子植物的基因组预训练了植物基因组模型PlantCaduceus,以学习被子植物中DNA序列的“语言”模式。随后,我们对PlantCaduceus模型进行微调,并将其应用于转录和翻译的起始和终止位点预测。结果显示,PlantCaduceus在跨物种预测中表现出最佳精度,同时还能够识别全基因组范围内的有害变异,其性能与当前最先进的蛋白质语言模型ESM2相当。此外,PlantCaduceus还成功鉴定出拟南芥和玉米基因组中的已知因果变异。
关键词:深度学习,DNA语言模型,基因功能注释,有害变异
1. Zhai J, Gokaslan A, Schiff Y, Berthel A, Liu ZY, Miller ZR, Scheben A, Stitzer MC, Romay MC, Buckler ES, Kuleshov V. Cross-species modeling of plant genomes at single nucleotide resolution using a pre-trained DNA language model. bioRxiv. 2024 Jun 5:2024-06.
2024年11月12日 星期二 09PM(北京)
2024年11月12日 星期二 02PM(欧中)
2024年11月12日 星期二 08AM(美东)
Zoom会议链接: https://us06web.zoom.us/j/87870509801?pwd=SGpvdEc3YVRQL2twTmJyenhnTDFrZz09
Zoom会议ID:878 7050 9801
密码:207409
更多途径关注我们
Bilibili:CGMonline 欢迎点赞、关注、投币!
CGM网站:cgmonline.co
微信群: 请添加微信"ll68551551"申请加群,并请注明"CGM+姓名单位"。