论文题目
论文摘要
本研究基于酵母随机启动子DNA序列及其对应表达值构建了规模庞大的数据集,并开发了一套全面的基准测试,包括单核苷酸变异(SNVs)、启动子原生序列和极端表达序列等多种序列类型。此外,研究团队提出了“Prix Fixe”框架,将模型拆分为模块化组件(如数据预处理、核心网络层及损失函数模块),以系统探索最佳架构和策略组合。挑战赛中,顶尖团队使用了多样化的模型架构,包括卷积神经网络(CNN)、双向长短期记忆网络(Bi-LSTM)和Transformer,并引入了创新的训练方法,如分布预测和输入数据增强等。实验结果表明,优化后的模型在酵母数据集上实现了对现有模型的全面超越,同时在果蝇和人类数据集上的基因表达预测及染色质开放性预测任务中表现出色。尤其是基于RNN架构的DREAM-RNN模型,在跨物种数据集上的泛化能力尤为突出。此外,通过Prix Fixe框架分析,研究揭示了模型各模块与性能的关键关联,为模型优化提供了重要指导。本研究通过标准化数据集和系统性评估框架,推动了基因调控预测模型的创新与发展。
论文链接