----<求关注 求点赞 感谢大家>----
这篇由西工大在8月2号发布的多模态大语言模型全面综述,我真的非常推荐给想要入门这个方向同学,可以帮助你建立起对多模态大模型领域的结构性认知。
多模态大模型可以说是现在非常前沿的方向,它无缝集成了文本、图像、视频、音频、生理序列等等在内的多种数据类型,解决复杂现实应用问题的能力远远超过单一模态的大模型。
这篇综述真的很全面的阐述了多模态大语言模型,首先会从宏观上给你详细介绍多模态大模型,像它的定义和基本概念、主要组成部分、多模态特征等等。然后讲解多模态大模型的任务分类,像图像、视频、音频等任务。
最后就是不同多模态大模型在不同任务上的比较,像图像任务、视频理解、视频生成、音频任务这些。
1.介绍
2.多模态大型语言模型的概述
定义与基本概念
多模态大型语言模型的主要组成部分
多模态特征在LLM中的概述
3.多模态大型语言模型任务分类
图像任务
视频任务
音频任务
4.MLLMS的比较
图像任务
视频理解
视频生成
音频任务
5.讨论与结论
如果你还是刚学大模型没有什么基础,这本由中国人民大学发布的大模型中文教程手册我很推荐。它是根据当初很火的大模型综述修改出来的,定位于帮助高年级的本科生和低年级的研究生系统入门大模型技术。
像大模型资源、数据、模型架构、预训练、指令微调、人类对齐、解码和部署、提示学习、规划与智能体、应用等方面都会详细讲到。
如果有同学需要这篇综述以及这本人大发布的大模型中文教程书PDF版本可以直接扫码添加我的小助手让她无偿及时发送给大家。
长按屏幕扫码即可添加
部分内容展示:
如果觉得有帮助的话,求点赞求再看!非常感谢!