近日,物理海洋教育部重点实验室在Machine Learning: Science and Technology(《机器学习:科学与技术》)期刊发表题为“Exploring the potential of contemporary deep learning methods in purifying polluted information.”(《探索当代深度学习方法在净化污染信息方面的潜力》)的最新研究成果,对比了当下最前沿的深度学习方法能否有效净化被污染的信息并进行准确预测,突出了动力系统深度学习(DSDL)方法在这一领域的卓越表现,DSDL模型即便在数据遭受污染的情况下依然能够较好地预测混沌动力系统,为构建更加可靠且透明的预测模型开辟了新路径。该成果由实验室在读博士生王铭宇为第一作者,“筑峰人才工程”第一层次李建平教授为通讯作者合作完成。
混沌动力系统广泛存在于自然界和人类社会,在大气、海洋、金融、生物等各个领域都有广泛的应用。然而,在大数据时代下,各类干扰系统所产生的无效信息及噪声不可避免地会混入数据集中,这类污染信息使得现有数值模型在预测复杂系统时的准确性大打折扣。当前的深度学习方法是否具备净化这种污染信息的能力是此研究领域的一个空白。
本项工作重点评估了五种目前最前沿的、认可度较高的深度学习方法(ANN、LSTM、NG-RC、RC-ESN、DSDL)在处理污染信息时的预测能力和稳定性。通过给目标系统引入一个或多个不同性质的干扰系统,模拟不同类型和复杂度的污染数据。结果表明,大多数现有的深度学习方法在受到污染数据干扰时,其预测效果显著下降,无法有效识别和净化无效信息(图1和图2)。相比之下,由李建平教授团队提出的DSDL模型展现了强大的抗污染能力,其预测效果基本不受干扰系统的影响,显著优于其他模型(图1和图2)。这归因于DSDL模型不仅能精准捕捉系统内部复杂的非线性关系,还能通过选择关键变量过滤无效信息,从而实现高效且透明的预测。
该研究填补了当前深度学习领域在数据污染净化方面的空白,指出当前主流深度学习方法的局限性,突显了DSDL方法独特的对无效数据的净化能力,是DSDL方法在混沌动力系统预测方面迈出的重要一步,为未来大气、海洋等多个领域的相关研究奠定了基础。该工作得到了国家重点研发计划、国家自然科学重点基金和崂山实验室等共同资助。
文章引用:
WANG M. -Y., and J. -P. Li*, 2024: Exploring the Potential of Contemporary Deep Learning Methods in Purifying Polluted Information. Machine Learning: Science and Technology, 5, 045026, https://doi.org/10.1088/2632-2153/ad8983.(点击下方“阅读原文”)