AI青年科学家圆桌论坛(第2期):模型与数据,谁更重要?

文摘   2024-12-25 17:54   重庆  

在“AI青年科学家圆桌论坛”第1期中,6位青年学者围绕“AI for Science?还是Science for AI?”主题开展了精彩对话。(点击查看第1期内容)


数据为王,还是模型至上?第2期对话聚焦AI发展的核心要素——模型与数据,6位青年学者将探讨两者在AI技术革新中的重要作用,以及如何在实践中做出明智的选择与权衡。


点击查看视频


本期话题





主持人:郑向涛

福州大学研究员

我们现在做AI,提大模型,又提大数据,现在模型的训练高度依赖于数据,有时甚至数据的重要性似乎超过了模型本身,因为模型参数众多,缺乏数据则难以训练出优质模型。这导致训练过程有时显得颇为玄学,结果可能因设备、时间等因素而异。那么,在模型与数据之间,究竟哪个更重要,或者两者都不可或缺?






丛润民 

山东大学教授

首先,我们需要明确这是“or”还是“and”的问题。数据是为了驱动模型的训练,其最终目的是服务于模型所能实现的效果、功能和任务。从本质上看,模型与数据是统一的。去年NIPS(神经信息处理系统大会)上有观点提出,目前全球现有的图片和视频数据资源,大约还能为深度学习模型的训练提供支持直至2028年。因此,从数据的角度上,现在许多研究转向生成式方法,但这也带来了数据真实性和完备性的问题。假设从数据为模型服务的角度来讲,我们要去做一些生成式的研究工作。从模型层面来看,我们尽可能使用少量的数据,或者是成本较低的标注数据来驱动模型训练。无论是从数据层面还是模型层面进行研究,两者都是交织融合、共同发展的。好的模型会优化数据的生成方式,进而产生更高质量的数据来驱动模型的训练。






刘昊 

宁夏大学教授

大模型的发展依赖于三驾马车:算力、数据和算法(即模型)。对于我们地方大学而言,更关注垂直领域的模型,例如需要当地的文化旅游、医疗等数据,那么数据的质量、可用性和安全性至关重要。数据的获取、清洗和整理过程繁琐且关键,因为数据质量直接影响模型效果。在垂直领域,大模型可能提供框架和共识,但具体应用中可能需结合中模型、小模型。培育模型依赖数据的整理、质量,训练模型依赖于算法、算力。未来,大中小模型的协同可能是最佳方向






武越 

西安电子科技大学副教授

若抛开其他因素都不管,模型和数据无疑都非常重要。这让我想起了F1赛车,赛车(模型)和车手(数据)的完美结合才能赢得比赛。在AI领域,算力、模型和数据同样相互制约。在资源有限的情况下,我们需要根据现有条件调整模型和数据处理方式。很多时候,我们的需求并不需要追求极致,而是在现有条件下达到满足需求的效果。数据和模型的问题,肯定是一个长期困扰的问题,因此,数据和模型的选择应根据具体应用需求进行取舍






余肇飞

北京大学研究员

我赞同武老师的观点。数据和模型谁更重要取决于应用场景。在通用AI模型中,数据肯定很重要;当数据量相对充足时,对模型复杂度的需求可能会相应降低,即便一般的模型,也可能展现出优良的性能。而在资源受限的场景下,如医学影像、气象预测等领域。数据难以获取时,那对模型的要求就比较高。以往,数据都是为模型服务,随着大模型的发展,在迁移学习和多模态处理方面展现出了很好的性能。例如,通过文字生成图片的技术,不仅生成了很多数据资源,也为我们提供了服务。因此,数据和模型之间的关系日益密切,两者都至关重要。






赵铁松

福州大学教授

数据和模型都非常重要。未来,如果假定说AI更像人的话,那么少量的、简单的数据结合预装的模型就能达到很好的识别效果。未来的研究趋势可能会更加侧重于开发真正通用的AI模型,这也是当前研究的热门方向。理想状态下,我们期望拥有一个高度通用的模型,仅需通过少量特定数据的微调,就能使其适应并优化至符合特定应用场景的需求。在实际应用中,我们需要根据具体情况在数据和模型上进行取舍。有时提升数据质量可能效果更明显,而模型优化则可能带来更长久的影响。



相关推荐



编辑|姚文静
初审|贺   柳
一审|张弘杨
二审|何雪
三审|叶彬强



重庆理工大学期刊社
重庆理工大学期刊社是直属重庆理工大学专门从事期刊编辑、出版和经营的二级部门,主办期刊有:《重庆理工大学学报(自然科学)》《重庆理工大学学报(社会科学)》《兵器装备工程学报》《智能技术学报》《机电液工程学报》《动力学、监测与诊断学报》。
 最新文章