论文秀Live#8 EMNLP 2024|智能基石:语言大模型与视觉推理的深度探索

文摘   2024-10-29 16:06   北京  


随着人工智能技术的飞速发展

语言大模型与视觉推理

已成为推动智能技术前进的基石

在即将召开的EMNLP 2024会议中

蚂蚁集团多篇被收录的论文

为我们揭示该领域的最新进展

今天给大家提前介绍一下

其中的三篇代表论文



1


Mixture-of-Modules:重塑Transformer的动态模块组装

录用类别:Main, Long paper

在传统的Transformer模型中,计算路径往往是固定的,这在一定程度上限制了模型的灵活性和效率。然而,一篇题为《Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules》的论文打破了这一僵局。


该论文提出了一种全新的框架——MoM(Mixture-of-Modules),通过动态组合Transformer模块,为每个token分配最合适的计算模块,实现了动态的计算图。这种设计不仅提高了模型的灵活性,还能在保持性能的同时显著降低计算量。通过设置不同的参数配置,MoM框架能够在各种任务中展现出优异的表现,为Transformer模型的创新开辟了新的道路。


2


从最少到最多:构建可插拔的视觉推理器

录用类别:Main, Long paper

视觉推理是人工智能领域的重要挑战之一,它要求模型能够理解和分析图像中的复杂信息,并据此作出推理判断。在《From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis》这篇论文中,作者们引入了一种新的视觉推理范式,通过协同视觉语言模型(VLM)中的问题分解和工具调用,解决了复杂的视觉语言任务。


为了克服数据稀缺的难题,论文提出了一种从最少到最多的数据合成方法,利用开源模型自动创建多步骤视觉推理数据,既经济高效又保证了数据质量。此外,论文还发布了一个包含100万样例的视觉推理数据集,通过微调得到的推理器在多个视觉问答任务上显著增强了现有模型的效果。这一成果为构建可插拔的视觉推理器提供了有力支持。


3


层级重要性感知:更少内存实现更好性能的参数高效微调

录用类别:Findings, Long paper

大型语言模型(LLMs)在预训练阶段积累了丰富的知识,但在应用于下游任务时,往往需要进行微调以适应具体需求。然而,大多数参数高效微调(PEFT)方法采用统一的架构设计,忽视了各层间重要性的差异,导致微调结果可能不尽如人意。针对这一问题,一篇题为《Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models》的论文提出了一种新方法——基于重要性感知的稀疏微调(IST)。


IST通过有效的层级重要性评分,选择最关键的完整层子集进行微调,实现了更优化的效果。该方法不仅是一种多功能的即插即用技术,能够与各种逐层操作的PEFT方法兼容,还能通过估计的重要性评分动态更新在PEFT模块中选定的层,从而降低内存需求。论文还提供了收敛性理论证明以及卓越性能的实证数据,彰显了IST相对于统一更新策略的优势。


这三篇论文分别从Transformer模型的动态组合、视觉推理的数据合成以及大型语言模型的参数高效微调等角度,为我们揭示了智能科技的最新进展。




直播分享



我们邀请到三篇论文的第一作者直播分享。他们分别是:


龚卓成:蚂蚁技术研究院交互智能实验室研究型实习生,北京大学王选计算机研究所博士研究生。

程传奇:蚂蚁技术研究院交互智能实验室研究型实习生,中国人民大学高瓴人工智能学院硕士。

姚凯:蚂蚁高级算法工程师,利物浦大学博士,浙江大学博士后在读。


他们将于2024年10月31日18:00至20:30,通过“论文秀Live#8”的直播,给大家呈现这些研究成果。欢迎各位在直播中和三位作者互动,了解他们的研究思路和实验过程。





直播观看指南

观看时间:

2024年10月31日 18:00-20:30


观看平台:

微信视频号【蚂蚁技术研究院】、【蚂蚁技术AntTech】、B站【蚂蚁技术研究院】同步直播,敬请预约关注。


 最新文章