纪荣嵘团队在大语言模型的突破性进展

文摘   科技   2024-05-31 20:00   福建  

摘要  厦门大学纪荣嵘团队在多模态大语言模型(MLLMs)领域取得了重要进展,通过创新的分辨率混合适配(MRA)、视觉标记提取(VTW)和多模态适配(MMA)方法,大幅提升了模型的性能和效率。与谷歌的PaLM-E、Meta的FLAVA以及OpenAI的CLIP和DALL-E模型相比,纪荣嵘团队的方法在处理高分辨率图像和大规模数据时表现出更高的效率和计算资源优化能力。
在人工智能飞速发展的今天,多模态大语言模型(Multimodal Large Language Models, MLLMs)作为能够处理和理解文本、图像等多种模态信息的技术,受到了广泛关注。这些模型不仅在自然语言处理和计算机视觉领域展现了巨大的潜力,还在跨模态任务中发挥了重要作用。多模态大语言模型的应用范围广泛,从自动驾驶、医疗影像分析,到智能客服和内容生成,几乎涵盖了所有需要综合处理多种信息的领域。
尽管当前的多模态大语言模型在性能上取得了显著进展,但在处理高分辨率图像和大规模数据时,仍然面临效率低下和计算资源消耗过大的问题。对此,厦门大学纪荣嵘团队提出了一系列创新性的方法,不仅在学术界引起了轰动,也为实际应用提供了强有力的技术支持。
谷歌的PaLM-E模型
谷歌开发的PaLM-E模型是当前多模态大语言模型中的佼佼者之一。PaLM-E整合了图像和文本处理能力,通过使用大规模预训练数据集和复杂的模型架构,实现了强大的多模态推理能力。例如,PaLM-E在视觉问答(VQA)任务上的表现尤为突出,准确率达到了83.6%。然而,PaLM-E在处理高分辨率图像和大量视觉标记时,计算资源的消耗依然是一个显著问题 (ar5iv)。
Meta的FLAVA模型
Meta推出的FLAVA模型采用了一个统一的架构来处理视觉、语言和多模态任务。FLAVA通过共享参数和联合训练,大大提升了多模态任务的性能。实验显示,FLAVA在COCO数据集上的对象检测任务中,平均精度(mAP)达到了46.7%。尽管FLAVA在性能上表现强劲,但在推理效率和适配能力方面仍有改进空间 (ar5iv)。
OpenAI的CLIP和DALL-E
OpenAI的CLIP模型结合了大规模图像-文本对的训练,实现了强大的多模态对齐能力。CLIP在多个视觉任务中表现出色,其泛化能力和鲁棒性得到了广泛认可。DALL-E则在生成式任务中表现尤为突出,能够根据文本描述生成高质量的图像。然而,CLIP和DALL-E在处理高分辨率图像和大规模数据时,计算资源需求较高,效率仍需优化 (ar5iv)。
厦门大学纪荣嵘团队的创新
厦门大学纪荣嵘团队在多模态大语言模型的研究中,提出了多项创新性方法,显著提升了模型的性能和效率。以下是他们的主要创新点:
分辨率混合适配(Mixture-of-Resolution Adaptation, MRA):MRA方法通过双路径设计,同时处理高分辨率和低分辨率图像,有效减少了视觉标记的数量,同时保持丰富的视觉信息。在LLaVA-HR模型中,MRA方法显著提升了TextVQA任务的性能,准确率提高了9.4%,训练时间减少了20小时,推理速度提高了3倍 。
视觉标记提取(Visual Tokens Withdrawal, VTW):为了进一步提升推理效率,团队开发了VTW方法。VTW通过减少需要处理的视觉标记数量,显著提升了推理速度。在处理大规模视觉信息时,特别是在LLaVA-HR模型中,推理速度提高了3倍 。
多模态适配(Mixture-of-Modality Adaptation, MMA):MMA方法是一种端到端的优化策略,通过轻量级适配器连接图像编码器和大语言模型。MMA能够自动调整单模态和多模态指令的推理路径,提高了训练效率和推理能力。基于MMA开发的LaVIN模型在ScienceQA任务上取得了显著成绩,7B参数模型的准确率达到89.4%,13B参数模型的准确率达到90.8%,训练时间仅需1.4小时。
通过这些创新方法,纪荣嵘团队在多模态大语言模型的研究中,展示了显著的优势和前瞻性,为多模态人工智能的发展提供了新的思路和技术支持。

声 明

• 本文部分内容为量芯智创原创,转载请通过公众号联系我们授权,无授权请勿转载。

• 本文内容来自于其它媒体、机构的,均已注明出处,但并不代表认同其观点或对其真实性负责。如涉及来源或版权问题,请权利人持有效权属证明联系我们,我们将及时勘误、撤销。

• 本文仅供学习参考交流使用,不用于商业用途。

量芯智创
公众号致力于人工智能、芯片科技的普及