多模态大模型是一种将文本、看看图生成视频吧
图像、视频、音频等多种模态信息联合起来进行训练的模型。能够融合多种不同模态的信息,执行更复杂和智能的任务,如视觉问答、图文生成、语音识别与合成等。
一段文字:一个动漫风格的女孩,拥有长而柔顺的紫色头发,两侧装饰着可爱的小猫耳,左边猫耳上戴着一朵白色花饰。她的眼睛闪烁着鲜艳的棕色的光芒。女孩身着一件带有“黑色”花朵图案的传统服饰,站在蓝黑色夜空下,夜空中点缀着闪烁的星光。前景是黄色的花朵植物,营造出一种宁静而梦幻的氛围。整体风格柔和、宁静,充满幻想色彩,二次元人物,扁平风插画,动漫头像,高清画质,细节描绘,面对观众。
这里都是一些比较流行的大模型,https://www.superclueai.com
通用能力
多模态
agent
图文生成
语音
代码
视频