2024年6月5日,Enveda Biosciences公司推出PRISM模型,该模型是一个庞大的生命化学模型,训练于12亿个小分子质谱,拥有850亿token。PRISM在预测生物样本化学成分方面的性能达到了前所未有的水平,其性能随着训练集规模的扩大而持续提升,展示了规模定律在生命科学领域的应用潜力。
Enveda Biosciences自2019年成立以来,一直专注于利用大规模代谢组学和人工智能技术加速天然分子的发现,并已获得1.75亿美元融资。公司计划进一步扩大实验数据的规模和多样性,以解码自然界的化学反应,推动新药开发。
PRISM模型采用了自监督学习策略,基于BERT架构并针对串联质谱进行调整。该模型通过遮掩质量值并预测缺失部分的方法进行训练,显著提高了分子身份的预测效果。Enveda收集的12亿张高质量小分子光谱数据集,是迄今为止最大的,其中一半来自公共数据存储库,另一半来自公司内部平台。
PRISM在分子化学性质预测方面展现出显著的性能提升,实际值和预测值之间的R方相对增加7%-16%。此外,PRISM在预测未知光谱结构的任务中也显示出23%的相对改进率。Enveda利用PRISM进行分子筛选,以期加速具有成药性的分子的发现。
由前Recursion产品经理Viswa Colluru创立的Enveda,致力于天然产物及其衍生化学空间的探索。PRISM的推出是公司在高通量筛选流程构建上迈出的重要步伐,有助于快速测试天然分子的药物特性。PRISM的成功应用预示着生命科学领域可能即将迎来质的飞跃。
编译整理|吴晓燕
本期编辑|刘怡伶
推荐阅读
敬请关注,欢迎个人转发分享
转载请联系授权:bioinfo@clas.ac.cn