36氪研究院｜2024年AIGC行业研究：多模态大模型与商业应用

财富科技 2024-03-27 07:31 北京

文｜36氪研究院

封面来源｜视觉中国

2024年2月，OpenAI发布其首款视频生成模型Sora，用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频，与一年前的AI生成视频相比，在各维度均实现了质的提升。这一突破再次将AIGC推向大众视野。AIGC即通过大量数据训练而成的人工智能系统，可根据用户的个性化指令生成文本、音频、图像、代码等内容。自2022年频频出圈的ChatGPT推出以来，生成式AI在游戏、影视、出版、金融、数字人等多个应用场景中展现出巨大潜力和价值。据不完全统计，2023年全球AIGC产业融资超1900亿元，几乎每个月都有该赛道公司获得融资。例如，2023年6月，Runway获得谷歌、英伟达、Salesforce等投资者的新一轮1.41亿美元的融资；Runway的强劲对手Pika则用短短半年时间，连续完成三轮融资，总融资额达5,500万美元。

本文将基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。

产业生态概览

产业生态图谱：以数据板块为代表的基础层有待突破，模型层占核心地位，应用层遍地开花

整体而言，目前AIGC产业生态可划分为三部分：上游基础设施层、中游模型层和下游的应用层。其中，基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台；模型层包括底层通用大模型、中间层模型和开源社区；应用层则在文本、音频、图像、视频四类模态的基础上，发展出了策略生成和跨模态生成，并在金融、数据分析、设计等多个行业实现了商业应用。

图示：AIGC产业生态图谱

基础设施层：数据服务板块成产业新增量，算力和算法产业生态格局较为确定

AIGC对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言，多模态的数据集至关重要。此外，为了使训练问答和产出达到预期效果，数据提供方需要保障数据的即时性和有效性。目前，全球规模最大的开源跨模态数据库是LAION-5B，全球首个亿级中文多模态数据集“悟空”则是由华为诺亚方舟实验室开源。

自各类大模型进入大众视野以来，其tokens的大小限制一直困扰着诸多开发者和使用者，以GPT为例，当使用者向其发送命令时，程序会自动将最近几次对话记录（基于对话的字数限制在4096 tokens内）通过prompt组合成最终的问题，并发送给ChatGPT。一旦使用者的对话记忆超过了4096 tokens，那么它就难以将之前的对话内容纳入到逻辑思考范围，这就导致目前GPT在面对比较复杂任务时容易出现AI幻觉。

在此背景下，开发者们不断寻求新的解决方案，向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中；在使用者输入问题时，也将问题转换成向量，然后在数据库中搜索最相似的向量和上下文，最后将文本返回给用户。这样不仅可以大大减少GPT的计算量，从而提高响应速度，更重要的是降低成本、支持多模态数据，并绕过了GPT的tokens限制。随着Weaviate MongoDB等海外向量数据库成为资本关注的对象，国内腾讯、京东等大厂也纷纷在此领域着手布局。

相比于数据板块，国内算力和算法基础领域供给端仍以头部企业为主，初创型企业机会相对较少。但以人工智能计算架构为基础，为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。

如AIDC OS，是九章云极DataCanvas自主研发的智算专属AI操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群，输出智算资源的纳管、统一调度，智算业务的业务运营支撑，以及AI模型的构建、训练和推理等核心能力。AIDC OS将算力运营方的运维能力从裸算力设备运维提升至AI大模型运维能力，加之对各类异构算力和AI应用的开放兼容，AIDC OS成功实现了算力资产附加价值的有效提升。

模型层：国内市场玩家多集中在底层通用大模型，中间层玩家较少

AIGC底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的API或者有限的试用接口来访问，国外闭源模型包括OpenAI的GPT模型、谷歌的PaLM-E模型等。国内闭源模型厂商起步较晚，但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的WAKE-AI大模型，具有文本生成、语言理解、图像识别及视频生成等多模态交互能力，是李未可科技专为未来 AI+终端，定向优化研发的多模态AI大模型平台。目前WAKE-AI大模型暂时针对李未可科技旗下的智能终端——AI眼镜、XR眼镜上使用。未来李未可科技将开放该AI平台，即让更多开发者以低代码或无代码的方式，在各类终端上快速低成本的部署或定制多模态AI。

开源模型采用公开模型的源码与数据集，任何人都可以查看或修改源代码，如Stability AI开源Stable Diffusion，Meta开源Llamax，xAI开源Grok-1，中国智源开源Aquila。比较而言，闭源模型的优势在于前期投入成本低、运行稳定；开源模型则基于私有化部署拥有较高的数据隐私安全保障，并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型，如腾讯的混元AI和百度的文心大模型，都可进行跨模态生成，但整体尚未普遍形成开源生态。

中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中，垂类大模型对于垂直行业的业务理解和资源积累要求较高，中间集成商负责组合多个模型接口，形成新的整体模型。以AI游戏引擎公司RPGGO为例，对于个人用户而言，RPGGO基于自研的游戏引擎Zagii Engine，能够协助个人创作者简化开发流程，实现最大化的创意输出；对于游戏工作室而言，RPGGO能够提供API联动，提升游戏开发效率。

就战略合作或产品布局而言，国内底层大模型厂商正发力布局中间层及终端应用层，以此为自身的底层大模型产品提供能力出口和数据入口，如针对未来智能终端提前布局多模态AI平台的李未可科技等。

应用层：文字生成发展时间较长，跨模态生成潜力最高

AIGC产业应用层多是基于模型能力和对用户需求的洞察，直接面向B端或C端客户进行服务，可将其简单理解为移动互联网时代的各类工具，未来的潜力空间较大，大批初创企业可参与其中。

如果按照模态划分，应用层可分为文字生成、音频生成、图像生成、视频生成、跨模态生成和策略生成。由于NLP技术发展历史较久，因此文字生成属于发展时间最长、落地应用也最为成熟的赛道。而在这波AIGC发展热潮中，跨模态生成将会带来最多的新应用场景。其中，文字生成图像、文字生成视频和图像/视频生成文本均已有产品问世，尤其是文字生成图像，如Stability AI，已经在全球范围内有了C端用户量的证明。

根据量子位智库对不同模态不同应用场景技术成熟度、应用成熟度和未来市场规模的估算，目前文本生成中，文本辅助生成赛道规模潜力最大；跨模态生成中，文字生成图像/视频赛道规模潜力最大。

图示：AIGC产业应用层不同赛道发展预测（圆圈大小表示预估 2030 年，该赛道相对市场规模）

数据来源：量子位智库，36氪研究院整理

2030年，中国AIGC市场规模将达万亿级别

根据量子位智库数据，2023年中国AIGC市场规模约为170亿元，预计2025年之前，中国AIGC市场规模增长率都将维持在25%左右，2025年市场规模将达到257亿元。2025年起，随着底层大模型逐步对外开放，中间层及应用层将迎来爆发式增长，带动AIGC行业市场规模快速增长，年均复合增长率将超过70%，到2027年，中国AIGC市场规模将超过600亿元。2028年起，AIGC产业生态更加成熟，并在各行各业实现商业化落地应用，2030年，市场规模将超过万亿人民币。

图示：2023-2030年中国AIGC产业市场规模预测

数据来源：量子位智库，36氪研究院整理

前沿技术分析

多模态发展已成行业共识，文本端技术路径已收敛于LLM

按照处理的数据类型数量，AI模型可以划分为单模态和多模态两类：单模态只能处理一种类型数据，如文本或音频或图片；多模态则能够处理两种或两种以上的数据类型。相比单模态，多模态大模型在输入输出端的优势明显：不同模态的输入数据具有互补性，多元训练数据输入有助于通用大模型能力的快速扩展，多模态数据输入使用门槛更低和数据损耗更少，同时也能够大幅提升使用者的应用体验；多模态数据的输出则省去了多模型的整合，更容易实现商业落地。

现阶段，AIGC大模型从单模态向多模态发展已成为行业共识。在文本端应用ChatGPT（2022年11月面世）和图像生成代表应用Midjourney V5（2023年3月面世）影响下，文本端和图像生成应用在2023年呈爆发式增长。2024年2月16日，OpenAI发布文生视频应用Sora，使视频生成领域成为新一轮行业热点，预计2024年将迎来技术和资本的高度关注。

图示：多模态大模型技术发展情况

资料来源：西南证券，公开市场资料，36氪研究院整理

目前，基于Transformer结构的预训练模型是多模态大模型的主流训练方式。如谷歌的GEMINI，就是在不同的模态上进行预训练，利用额外的多模态数据进行微调以提升其有效性。随着文本生成大模型的发展，LLM已成为确定性技术路径。通过扩展，LLM的性能可以在困惑度（生成文本的流畅度）等定量指标上实现大幅改进，只要在训练期间接触到多样化的语言模式和结构，LLM就能以高保真度模仿和再现这些模式。

然而，多模态技术面临数据存量即将枯竭的困境。不同类型的数据标注成本不同，视觉等模态数据收集成本通常高于文本数据，这导致多模态数据集（尤其是高质量数据集）远少于文本数据集。Epochai数据显示，在AIGC大模型高速发展背景下，高质量的语言数据可能在2026年之前耗尽，而低质量的语言数据也可能在未来20年内面临枯竭。

为了解决数据枯竭问题，AI合成数据应运而生，如结构化数据企业Mostly AI和非结构化数据企业DataGen，前者能够生成与真实数据预测特性相当的匿名数据集，后者则能够为计算机视觉团队提供合成数据集的自助服务平台。AI合成数据适应多模态模型的数据模态组合，且数据获取速度更快，能够有效增加数据存量。

路径对比：扩散模型占据主流，自回归模型仍有潜力

AI生成视频与AI生成图片的底层技术框架较为相似，主要包括生成式对抗网络（GAN）、自回归模型（Auto-regressive Model）和扩散模型（Diffusion Model）三大路径。目前，扩散模型已成为当前AI生成视频的主流模型。

（1）生成式对抗网络（GAN）

GAN是早期的主流图像生成模型，通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力，使得生成式网络的数据趋近真实数据，从而图像趋近真实图像。相较于其他模型，GAN的模型参数量较小，所以更加擅长对单个或多个对象类进行建模。弊端是GAN的训练过程稳定性较差，导致其生成的图像缺乏多样性，因此逐渐被自回归模型和扩散模型替代。

（2）自回归模型（Auto-regressiveModel）

自回归模型采用Transformer进行自回归图像生成。Transformer整体框架主要分为Encoder和Decoder两大部分，能够模拟像素和高级属性（纹理、语义和比例）之间的空间关系，利用多头自注意力机制进行编码和解码。与GAN相比，自回归模型具有明确的密度建模和稳定的训练优势，能够通过帧与帧之间的联系生成更为连贯且自然的视频。由于自回归模型本身参数数量通常比扩散模型大，其对于计算资源要求及数据集的要求往往高于其他模型，因此受计算资源、训练所需的数据和时间限制较大。但也正由于其参数具备更大的扩展潜力，图像生成和视频生成的自回归模型将有望借鉴Transformer在文本领域LLM的经验，通过对不同模态进行跨模态、规模化的训练，最终实现“大力出奇迹”。

（3）扩散模型（Diffusion Model）

直白来说，扩散模型就是通过定义一个扩散步骤的马尔可夫链，连续向数据添加随机噪声，直到得到一个纯高斯噪声数据，然后再学习逆扩散过程，经过反向降噪推断来生成图像，通过系统扰动数据中的分布，再恢复数据分布，逐步优化的过程。以Sora为例，Sora由Visual Encoder、Diffusion Transformer和Transformer Decorder三大Transformer组件组成。在训练过程中，给定一个原始视频X，Visual Encoder将视频压缩至较低维的潜在空间，然后在潜在空间中接受训练，该训练过程应用的就是基于扩散模型的Diffusion Transformer，先加噪再去噪，逐步进行优化，最终将生成的时间和空间上压缩的潜在表示通过Transformer解码器映射回像素空间，即视频X1。由于计算效率更高、成本更低，并且能够在处理数据（压缩/放大）时获得高质量图像，扩散模型已逐渐成为文生图和文生视频领域的主流技术路径。

图示：扩散模型VS自回归模型

资料来源：公开市场资料，36氪研究院整理

应用概况

随着ChatGPT、文心一言、Sora等产品问世，AIGC覆盖场景愈发丰富，表现效果逐步成熟。机遇与挑战并存，AIGC为行业带来发展机遇，创造出更多新应用场景和商业模式的同时，也伴随着一些需要应对的挑战。

对于ToB类企业而言，AIGC可与其现有业务进行有机结合，实现业务降本增效，为数字人、SaaS、数字设计、金融等行业带来新机遇

数字人。虚拟数字人的发展与AI、CG、虚拟现实等多个领域底层技术的突破密不可分。AIGC与数字人的融合，赋予虚拟人更多的“敏捷力”与“生命力”的同时，实现其在更多应用场景的落地。一方面，AIGC技术可将静态照片转为动态视频，并实现如人脸替换、表情转变等视频特效，让虚拟人更加生动逼真；另一方面，AI技术提升虚拟人多模态交互能力，无需人工干预，即可实现自动交互，让虚拟人具有内在“思考”能力，加速其在更多领域的应用。此外，AI技术有望实现从创建、驱动到内容生成的“一站式”全流程自动化，降低企业开发成本。例如，趣丸科技已初步建成高自然度虚拟数字人生成技术平台，可在10秒左右，通过单张或几张照片生成面部相似度达到90%以上的高自然度虚拟数字人，耗费时间短、成本低、具有多模态交互能力，降低了普通用户使用技术门槛和经济负担，实现在科普教育、直播零售、游戏动漫等场景的应用。

SaaS。面对不断发展与变化的市场环境，保持业务侧数字化运营和顺畅的上下游衔接成为越来越多企业的必然选择，这意味着SaaS行业需提升智能化程度，为企业提供可快速响应、交互和决策价值分析等服务。在客户管理场景中，AIGC的文本生成模式可作为聊天机器人，根据客户沟通内容快速进行反馈，提供个性化互动并主动提供查询以外的其他相关服务，使SaaS软件更易于访问和使用。在业务流程自动化场景中，AIGC可实现通过简单指令，综合管理企业业务流程，提高工作效率。例如，在财务管理方面，整合分析财务数据，提供全面的财务报告与分析；在营销方面，动态生成个性化客户邮件及广告；在供应链管理方面，自动处理上下游单据和数据录入；在人力资源方面，实现智能面试和薪酬考核自动化。

数字设计。随着多模态预训练大模型等底层技术的逐渐成熟，AIGC在音图视频生成上展现出更强的能力，应用也愈发广泛。一方面，图像生成在工业设计、平面设计、插图设计、游戏动画制作等数字设计领域快速应用，在工作前期，AIGC可辅助搜集素材、快速生成草稿，在后期，用户可通过文字指令实现调色、构图调整、P图、调整风格等功能，降低设计创作门槛的同时，减少基础性机械劳动。另一方面，视频生成在建筑设计、工业设计、游戏设计等行业中，可提供更加直观的演示效果，显著缩短工作时长。

图示：AIGC融入数字设计工作流程

金融。面对激烈的市场竞争，传统金融行业已难以满足消费者个性化需求。金融行业具有资源密集型特点，利用AIGC分析、生成能力可提升其服务效率，推动其优化业务流程，提供更便捷的以客户为中心的产品与服务。具体而言，AIGC主要被应用在风险评估、量化交易、柜台业务办理等方面。在风险评估环节，AIGC可快速分析分散的、多维交易数据和行为模式，精确监测并识别潜在风险和检测欺诈，提高风控精确度。在柜台服务环节，AIGC可根据客户需求和自身画像，为其推荐更适宜的产品和定制化金融服务，提高客户满意度。

对于ToC类企业而言，AIGC将帮助游戏、影视、出版等行业提高内容产出效率，提升消费者体验

出版。对于以内容为根本的出版业而言，AIGC将引发内容生产范式变革。一方面，AIGC替代用户成为内容生产者，迅速提高内容产出效率；另一方面，AIGC可辅助完成编辑工作，节省编辑工作时间，释放人力。具体而言，在内容生产环节，AIGC的文本输出能力辅助作者完成内容创作，后续随着技术的发展，甚至可直接创作内容，并拥有独特的写作风格。目前，部分小说网站推出AIGC辅助创作功能，作者输入特殊关键词，即可自动生成内容，并为作者提供灵感。在编辑环节，AIGC可通过抓取热点新闻、事件，基于自动分析挑选选题的同时，基于文本识别和深度学习模型，快速完成文章审校工作，提高编辑工作效率。

游戏。在行业竞争愈发激烈且玩家喜好更加细分的背景下，AIGC与游戏的融合，从内容、画面、玩法等方面全面优化玩家游戏体验，并提高游戏自身竞争力。在内容和玩法方面，一方面，AIGC提高NPC对话逻辑性、细化语调、表情和肢体动作、将环境与NPC搭建起情感联系，增强玩家与游戏的交互性，为玩家提供自由度较高的沉浸式体验；另一方面，输入目标、场景、角色等信息，AIGC可生成玩法文案，提供关于机制和故事情节等方面建议，平衡并丰富游戏玩法，提升游戏的趣味性。此外，AIGC可辅助生成更精美的画面，工作人员通过文字表述即可生成图片和动画，提高绘画效率的同时，提升玩家的体验。

影视。影视行业工作流程普遍较长，涉及大量人力与时间成本，AIGC将赋能影视制作全流程，从策略、摄制、制作到宣发阶段，大幅降低影视行业门槛，提供内容创意参考的同时，实现行业的降本增效。在策划阶段，深度学习算法可通过快速大量阅读已发布影片，再结合关键词，为编剧提供剧本创意参考的同时，在剧本完成后，也可帮助编剧进行润色和翻译等工作。在摄制阶段，一方面，导演可利用AIGC帮助完成分镜绘制、镜头语言设计等工作；另一方面，制片人可省去日程安排、制片统筹、剧组预算等基础工作所需时间，实现工作的简化并节省时间成本。在后期制作阶段，AIGC可完成如添加字幕、视频剪辑、视频调色等基础工作，随着技术的成熟，也逐渐可完成特效制作、动画制作等复杂工作。以2023年奥斯卡最佳影片《瞬息全宇宙》为例，这部科幻电影的视觉效果团队仅有五人，他们通过与Runway合作，使用其AI工具完成背景、放慢视频、制作无限延伸的图片等工作，极大地提升了视觉特效制作效率。

图示：AIGC赋能影视制作各个阶段

尽管AIGC可大幅提高各行业的智能化水平及运营效率，但其发展仍存在一定局限性，应用端存在诸多挑战

SaaS。AIGC在SaaS行业中的应用带来了数据隐私和信息安全等问题。在提供个性化服务和支持的过程中，AIGC需要输入企业内部运营、财务、个人交易等敏感信息数据。而AIGC模型具有潜在的记忆能力，在生成内容的过程中可能无意提取其他用户的私人数据，由此带来严重的隐私泄露风险。

数字设计。设计行业对版权要求尤为重要。AIGC通过来自互联网、第三方数据集等大规模数据进行训练时，可能包含通过网络爬虫或其他方法获取的未经授权的数据，进而生成类似风格的衍生作品，易产生已存在内容和新创意元素的混合物，进而引发知识产权归属混乱的问题，产生潜在的法律风险和版权纠纷。尤其在数字设计领域，AIGC的应用可能涉及大量原始数据的使用和转换，生成作品版权归属存在较大争议。

金融。金融行业大多交易需参考各方信息，对信息准确性要求较高。然而，基于历史和实时信息，AIGC所做分析准确性仍有待提高且无法预测意外事件的发生。近年来，金融机构纷纷推出智能顾问等生成式AI工具，若投资者过度依赖其提供的预测和建议，可能导致不理智的投资行为，加剧羊群效应，进而增加风险集中度。此外，AIGC易生成虚假新闻或误导信息，导致投资者做出错误决策的同时，可能导致市场价格异常波动。

游戏。作为一种高度强调实时人机互动的娱乐形式，AIGC的出现让玩家在虚拟世界获得了更好的沉浸式体验，但不受剧情控制、无限延展的人机对话，在交互内容合规方面存在较大不确定性，若AIGC对过滤词把控不力，玩家可能会受到冒犯或伤害。

影视。对于需引起情感共鸣的影视行业，相对于人类基于丰富情感和深厚阅历的创作，AIGC仅能依靠已有数据和算法生成较为生硬、冰冷的内容，拟人化的情感表达尚待提升。

出版。在文学领域，对于内容所涉及的伦理和道德问题要求较为严格，目前，AIGC无法确保生成内容的合规性，用于开发AIGC模型的训练数据可能包含歧视、暴力等内容，从而生成种族歧视、性别歧视等有害内容。

总体而言，AIGC依托多模态大模型、深度学习算法等赋能金融、游戏、出版等千行百业，但带来的如伦理、版权、数据安全等问题与挑战也不容忽视。

发展展望

Sora等软件展示的跨模态生成能力意味着AGI时代将加速到来

通用人工智能（Artificial General Intelligence，AGI）是一种可以在任何专业领域内像人类一样思考、学习、修正并执行智力任务的人工智能系统，要求AI系统具备人类所理解的常识、共同行动规范和价值观，最大特点是对真实世界的规则，如物理状态、自然规律、化学变化等因素做出反馈，是人工智能发展的最高目标之一。Sora、ChatGPT等应用软件的发布意味着AI技术领域取得突破性进展，具备更强的时空建模能力和更高的计算复杂度，可模拟具有三维空间、符合物理规律的真实物理世界，为理解现实世界和模拟世界的实现打下技术基础，也将推动多模态AI加速发展，并进一步加快AGI的发展进程。

技术创新与技术融合将推动AIGC的生成能力和应用能力不断增强

未来，一方面，随着深度学习、计算机视觉等技术的不断成熟和如知识蒸馏等新技术的持续创新，AIGC的生成质量、速度和效率等方面能力将进一步提升；另一方面，多模态大模型将与如自然语言处理技术、虚拟现实、增强现实、数字孪生等更丰富的技术融合，拓展如自动驾驶、药品研发、安防等更多应用场景的同时，为用户提供更丰富的解决方案，满足越来越多用户需求。如在自动驾驶领域，AIGC技术可创造更多合成数据，弥补真实数据不足的缺陷，加速仿真场景的搭建，提升仿真测试效率。

http://mp.weixin.qq.com/s?__biz=Mzg3NDg1MjEwOQ==&mid=2247496051&idx=1&sn=a214b39e4c854441da02416b9f1ddf71

36氪研究院

专注于一二级市场及新经济领域的研究与咨询