8月6日下午,华东师范大学大模型俱乐部第四次线下研讨会在理科大楼B112成功举办,本次活动吸引了众多对多模态大模型感兴趣的师生参与。
此次研讨会有幸邀请了复旦大学大数据学院副教授、智能复杂体系实验室双聘研究员、博士生导师、数据智能与社会计算实验室(Fudan DISC)负责人魏忠钰老师,他是香港中文大学博士,美国德州大学达拉斯分校博士后,担任CIPS情感计算专委会副秘书长,CCF自然语言处理专委会副秘书长,曾任CIPS青工委执委会副主任。主要研究领域包括多模态大模型和社会计算,发表论文100余篇,担任ACL 2023多模态高级领域主席(SAC),EMNLP 2024论辩挖掘高级领域主席。代表成果包括多模态多步推理大模型Volcano和 DISC-X系列垂域大模型(覆盖医疗、司法、金融、网络治理四个领域)。曾获得2019年度CIPS社会媒体处理专委会新锐奖,2021年上海市启明星计划,2022年CCF自然语言处理专委会新锐学者奖。
本次报告,魏忠钰老师以“多模态大模型的前沿趋势”为主题,综述当前多模态大模型的架构发展和未来趋势,并介绍Fudan DISC推出的多模态大模型评测基准Reform-Eval以及多步推理多模态大模型Volcano。
首先,本报告介绍了多模态大模型研究的发展阶段,从任务导向阶段到多模态预训练阶段,再到现在的多模态大语言模型研究阶段,模型规模不断扩大,训练范式也发生了转变。在多模态大语言模型的设计思路方面,魏老师从输入和输出的语义空间设计以及中间的对齐方法角度进行了阐述。输入模态的语义设计分为连续特征空间和离散特征空间,目前的研究重点是如何做好视觉的离散表征,以实现视觉信息与文本信息更好的关联。输出端则需要考虑离散空间或连续空间的语义建立。
接着,魏老师从视觉输入空间设计、增强视觉表征、输出空间设计、语义对齐方案等方面详细介绍了多模态大模型的前沿研究工作。包括视觉编码器的训练、高分辨率图片处理、输出空间的改造、离散编码器的设计等内容。此外,魏老师还介绍了团队在多模态大模型评测方面的工作,包括构建全面可靠的评价基准,以及对大视觉语言模型输出稳定性的评价等。最后,魏老师分享了关于多模态多步推理大模型的工作,提出了以物体作为锚点的多模态思维链,通过图文混合的推理过程,模型在各项任务上取得了较好的性能提升。
互动环节由周杰老师主持,现场气氛热烈,参会者积极提问。有参会者问到关于GPT-4o实现良好语音、图像及视频理解效果的背后技术,以及与研讨会中所提及技术的相关性。魏老师表示,多模态大模型的基础处理框架在一定程度上是相似的,性能的好坏可能取决于训练数据的质量、数量以及工程化处理的差异。同时,魏老师还提到GPT-4o在流畅性方面的表现令人惊艳,但其具体实现方式可能涉及工程上的输入输出分离等操作,不在其研究范围内。
此外,还有参会者就多模态大模型在数数问题上的表现进行了讨论,魏老师指出数数对于模型来说是一件极难的事,因为模型的训练与人类的训练方式不同。同时,关于多轮对话和多步优化的问题也引发了大家的关注,魏老师认为多步优化是一个很值得研究的方向,虽然多步训练和操作难度更大,但在合理的条件下,多步可能会比单步取得更好的效果,并且这个方向有很多问题值得探索,如样本构造、监督设置、训练过程等。
此次研讨会为多模态大模型的研究提供了一个极为有益的交流平台,参会者们在研讨会上分享了各自的研究成果和经验,深入探讨了多模态大模型领域的关键问题和挑战。这种思想的碰撞和交流,不仅促进了相关领域的学术发展,也为未来的研究工作提供了新的思路和方向。相信通过这样的研讨会,能够推动多模态大模型的研究不断向前发展,为人工智能领域的进步做出更大的贡献。