WXRedian | AI前线 | 深度解读快手可图大模型的技术演进与应用探索

深度解读快手可图大模型的技术演进与应用探索

科技 2024-11-01 11:10 辽宁

演讲嘉宾｜李岩，快手可图大模型团队负责人

编辑｜蔡芳芳

策划｜AICon 全球人工智能开发与应用大会

图像与视频生成技术逐渐成为多个行业关注的焦点，特别是在电商、娱乐和广告等领域，视觉生成技术的应用正在加速扩展。在这样的背景下，大模型的研发已成为推动视觉生成技术不断突破的关键因素。

本文中，快手可图大模型团队负责人李岩深入介绍了可图大模型基座研发的关键技术创新，剖析了娱乐场景与商业化场景视觉生成模型落地差异，并呈现图像生成与视频生成的能力联动方式。

12 月 13-14 日，作为全年系列大会的收官之站，2024 AICon 全球人工智能开发与应用大会将在北京举办！本次大会将继续聚焦人工智能的前沿技术、实践应用和未来趋势，比如大模型训练与推理、AI agent、RAG、多模态大模型等等...... 精彩议题正陆续上线，欢迎访问链接查看详情：https://aicon.infoq.cn/202412/beijing/

以下内容源自李岩在 2024 AICon 全球人工智能开发与应用大会·上海站的演讲（经 InfoQ 进行不改变原意的编辑整理）：

今天，我将与大家探讨几个关键的主题。首先，我会对可图大模型进行简要的介绍；接着，我们将深入讨论四个技术点，这些点是大家普遍感兴趣的，分别是：1. 在文生图领域，如何选择恰当的文本表征；2.RLHF 的关键因素是什么；3. 如何让大模型能够书写优美的中国字；4. 如何实现高效的虚拟试穿技术。在演讲的最后，我将从我的视角出发，对视觉生成领域的未来进行一个总结性的展望。

可图大模型介绍

让我们先简单了解一下可图大模型。两个月前，当人们提起快手时，他们对快手的大模型并不熟悉。甚至有人问我，快手是否真的在研发自己的大模型。为了解答这个问题，可以看下面这张在 WAIC 会议上的全景图。我们可以看到快手目前正在研发的基础大模型，包括快意大语言模型、快意多模态大模型以及语音大模型。此外，还有两个专注于视觉生成的大模型，即可图图像生成大模型和可灵视频生成大模型。

从我们开始研发可图的第一天起，我们的目标就是将其打造成最能理解中文的文生图大模型。为此，我们为可图定义了三个核心特点：第一，它拥有强大的语义理解能力；第二，它能够生成摄影级的画面质感；第三，它支持多条件的控制生成。

可图的实际效果如何呢？为了评估这一点，我们进行了一些内外部的人工评估。上个月，我们参加了智源组织的一个人工评测，智源邀请了大约 20 多个市面上已有的开源和闭源文生图模型参与效果评测。评测的维度包括整体效果、图文相关性以及质量，并区分了中文和英文场景。令人高兴的是，可图在这次评测中获得了第二名的成绩。目前，效果超过可图的仅有 OpenAI 的 DALL-E 3，它仍然是行业内最佳的文生图效果。我们也提供了内外部评估的链接，如果大家感兴趣，可以点击查阅更详细的信息。

内部评测结果：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
外部评测结果：https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=t2i

在 7 月 6 日世界人工智能大会期间，我们正式宣布将可图大模型开源。为了便于大家访问和使用，我们提供了几个官方的链接。

官网地址：https://kwaikolors.github.io/
Github 项目地址：https://github.com/KwaiKolors/Kolors
Hugging Face 模型地址：https://huggingface.co/KwaiKolors/Kolors
技术报告地址：https://github.com/KwaiKolors/Kolors/blob/master/imgs/Kolors_paper.pdf

自开源以来，可图大模型受到了广泛的关注和积极的反响。在国外，一个月内我们在 GitHub 上获得了超过 3000 个星标，而在 Hugging Face 上的下载量也超过了 5 万次。整体来看，社区对我们的模型反响热烈，我们甚至一度登上了 Hugging Face 的 Model 榜和 Space 榜。

在国内，B 站上有许多关于可图大模型的介绍、评测和使用教程，这些内容帮助大家更好地了解可图。我们也建立了开发者群组，以促进与开发者的交流。在这些群组中，我们很高兴看到大家对可图表现出了浓厚的兴趣和关注，这让我们感到非常欣慰。

除了肯定之外，社区也提出了可图存在的一些问题。例如，我们的插件生态还不够完善。在过去的一个月里，官方和个人开发者都在努力完善可图的插件生态系统。截至 8 月初，可图 Kolors 大模型插件生态逐步完善，目前 IP-Adapter-Plus，IP-Adapter-FaceID-Plus，ControlNet-Canny，ControlNet-Depth， ControlNet-Pose， Inpainting 模型，Dreambooth-LoRA 训推代码均已发布。现在，这些模型和代码都可以在 GitHub 和 Hugging Face 上找到，我们将继续努力完善可图的插件生态，以满足社区的需求。

这里分享一些我们将可图开源的决策思考。开源首次引起我们注意是在 5 月份参加 AICon 北京时，当时有一场关于可图的演讲，结束后许多参与者询问我们是否会考虑开源可图。这促使我们开始思考是否应该将内部使用的可图模型开源，以便更多人能够使用。

为此，我组织了团队进行技术讨论，并调研了行业内对开源的看法。我们注意到了两种不同的观点：一方面，百度的李彦宏认为“开源模型是智商税”，这给我们的开源计划带来了一些负面信号；另一方面，像 Meta 和扎克伯格则积极拥抱开源，他们认为开源 AI 是前进的道路，并提供了 PyTorch 和 Llama 系列的开源项目，引领了大模型开源的趋势。在考虑了国内外的观点后，我们又研究了一些已经开源的文生图模型公司的现状。例如，stability.ai 在 2024 年第一季度的营收不足 500 万美元，亏损超过 3000 万美元，还欠云计算厂商和其他公司近 1 亿美元，并面临 Getty Images 的诉讼，CEO 被迫离职，核心作者出走。这些消息似乎都是消极的。

在分析了逻辑和情感两条线之后，我们意识到，从逻辑上讲，开源在短期内为公司带来商业价值是非常困难的。因此，我们转向了情感线。首先，中国的大模型公司在研发过程中，确实从开源社区获得了很多帮助，我们有机会也应该回馈开源社区。其次，尽管 stability.ai 目前面临困难，但我们仍然非常尊重这家公司，因为它开启了视觉生成 AIGC 的赛道。我们认为，在他们困难的时候，我们应该提供支持，哪怕是微小的贡献。快手是一个技术导向的公司，尽管我们可能偶尔缺乏一些运营和产品的基因，但我们的团队成员都是技术理想主义者，开源是大家非常愿意做的事情，也是实现技术理想主义的一个场景。开源也是公司最好的企业名片和技术名片。在开源之前，人们对我们的能力了解不多，但开源之后，我们发现许多候选人是冲着可图来的，他们希望加入可图团队，帮助我们更好地发展开源社区。这对公司来说是一个非常有利的因素。

在这个世界上，许多公司和产品都在积极地进行开源活动，以推动整个大模型行业的发展。无论是图像生成、视频生成、大语言模型还是多模态大模型，这些开源项目都在推动着开源模型社区的进步。

在演讲中，我特别愿意展示一张由可图大模型生成的图像（下图右侧）。每当我谈论国产大模型时，我都会拿出这张图来展示。图中的每一位战士都像是我们行业中的自己，我们正在经历着各种挑战，包括硬件的限制和各种困难。尽管如此，我们依然坚信，迎接我们的将是希望和朝阳。

我想强调的是，大模型的开源并不是一次性的行为。可图将持续地进行开源，与创作者们一起共同繁荣社区的生态。我们这样说，也是为了给自己施加一些压力，确保我们能够持续地为社区做出贡献。请大家期待，可图将继续走在开源的道路上，为大家带来更多关于应用和基座方面的惊喜。

接下来，我将介绍几个技术讨论点，这些讨论点是在模型开源后，我们在社区中发现许多人关注的话题，我将为大家做一个技术揭秘。

技术讨论一：

怎样选择合适的文本表征

首先，我们来讨论在文生图领域如何选择一个合适的文本表征器。

文本表征器有几种类型，第一种是我们熟悉的 CLIP，它采用双路跨模态建模方式，在训练时已经隐式地与视觉侧进行了对齐，因此在做文生图对齐时相对压力较小。但它的弱点在于，它是基于全局特征进行对齐的，所以在处理细粒度的语义理解时可能会出现概念混淆。

第二种文本表征是 Encoder-Decoder 结构，如 T5，它在英文场景中是一个很好的文本表征器。但可图要做的是中文文生图模型，T5 有一个多语言版本 mT5，但中文语料在其中所占比例不足 2%，我们评估后发现这样的中文语料量不足以支持中文文本表征，因此 Encoder-Decoder 框架我们也无法选择。

第三种是 Decoder-only 结构，类似于 GPT 这样的框架。这种框架参数众多，擅长处理长文本，但它训练时的目标与文生图的目标完全不同。我们需要的是一个对文本有良好建模和理解能力的模型，而它训练时做的是 NTP（Next Token Prediction）问题，这是一个面向生成任务的问题，与我们的任务不匹配。

我们思考是否有一种模型能够兼顾文本理解与生成任务，并找到了由智谱提出的 General Language Model 框架，它类似于 Encoder-Decoder 的结构，但共享一个 Transformer 结构，并通过 Attention Mask 区分编码和解码。在训练时，它的 Attention Mask 结构不是纯三角的，也就是说，它的双向注意力既有方形也有三角，这样就能同时兼顾理解能力和生成能力，最终成为可图的首选。目前，行业内使用大语言模型进行文本表征的案例并不多，可图希望通过分享这些见解，为大家提供一些新的视角。

我们探讨一下真实效果。我们之前提到 CLIP 在全局文本建模方面存在一些概念混淆的问题。例如，如果我们描述一个绿色的苹果和一个橘色的书包，CLIP 可能会将绿色也应用到书包上，我们内部称这种现象为“渗色”或“渗概念”。再来看右边的例子，这是 DALL-E 3 宣传时一个非常著名的 Prompt，它涉及到许多元素和场景。我们发现，只有大语言模型能够非常准确地理解这些复杂的场景元素和形容词。

从可图的角度，我们希望提供一些原则性的信息，我们总结了五个原则来指导大家如何选择文本表征。

原则一：英文场景无脑选 T5。如果大家刚开始做文生图任务，并且只需要处理英文场景，那么可以选择 T5，因为它的效果已经得到了验证，T5 是一个安全的选择。
原则二：多文本表征不差于单文本表征，且大小搭配，生态可玩。例如，SD3 的文本表征是 T5 加上 CLIP，但许多人可能会质疑 CLIP 是否必要。实际上，我们进行了一些实验，并得出结论：双文本表征的效果并不逊色于单文本表征。此外，这种搭配有助于调整模型参数，特别是在进行 Dreambooth-LoRA 等下游任务训练时。
原则三：LLM 可以作为文本表征，但需要 Prompt Engineering 与 Connector/Token Refiner。例如，商汤在 6 月份发布的 LIDit 文章中，分析了大语言模型如何进行文本表征。文章中的图表显示，大语言模型的评估效果与文生图的效果之间存在关联。我们可以通过添加指令或提示来引导模型关注特定的视觉元素，或者通过变换模型输出的特征（Connector 或 Refiner）来提高效果。
原则四：端到端训练效果好于 Frozen Text Encoder。尽管这听起来像是老生常谈，但实际上，随着文本表征的增大，显存可能无法容纳。尽管如此，如果我们能够打开文本表征，效果会更好，但这需要依赖于强大的算力。
原则五：大模型时代多考虑 Multilingual Text Encoder。我们应该尽量开发能够在全球通用的产品，使用训练数据的原始语言作为描述。例如，如果输入“小男孩”，模型应该能够生成一个亚洲面孔的图像；如果输入“a boy”，模型应该能够生成一个西方面孔的图像。这种多语种文本表征的能力是非常关键的。

技术讨论二：

什么是 RLHF 的关键因素

RLHF 在自然语言模型中已经被证明是一个非常有效的模块。2023 年上半年，并不是所有人都相信 RLHF 的有效性，许多公司认为只要做好 SFT 就足够了。但从 2023 年下半年开始，越来越多的人开始认识到 RLHF 的价值。RLHF 的价值在于它能够指导模型训练的最后一阶段，我们称之为 Quality Tuning。这个概念最早由 Meta 在其 EMU 工作中提出。文生图模型的训练分为多个阶段：首先训练较低分辨率的模型，然后逐步提高分辨率，直到 1024。当 1024 分辨率的图像训练稳定后，我们会使用高质量的高清摄影数据进行最后的 Quality Tuning，这个阶段类似于炒菜时的勾芡和上色，所有的调性、风格和品质都是在 Quality Tuning 阶段完成的。

Quality Tuning 与 RLHF 不同之处在于，Quality Tuning 只能对模型进行正向引导，告诉模型什么是最佳的。而 RLHF 则能够告诉模型什么是不好的，提供负面反馈。我们认为，在 RLHF 中最关键的是如何构建一个能够拟合人类偏好的奖励模型。这个奖励模型能够评估模型输出的好坏，并据此调整模型参数，使其更好地符合人类的评估标准。

在讨论奖励模型之前，我们需要先了解文生图中的评估，包括机器评估和人工评估。

机器评估，例如使用 FID 来评估图像质量或美学相关性，其特点是速度快，但数值不稳定。它只在非常高或非常低的数值时才稳定，在中间阶段则没有参考价值。在我们的研发过程中，机器评估主要用来发现红线问题，即当模型训练中的某个指标突然降到极低或升到极高时，我们会予以关注。

人工评估非常重要，因为模型最终是供人使用的。人工评估是最准确的，但也是速度最慢的。例如，可图的大版本进行一次人工评估，需要两到三天的时间，这是不可接受的。因此，我们面临的问题是如何获得人工评估的效果，同时又能享受机器评估的效率。

为了解决这个问题，我们构建了一个与人工标准对齐的机器模型。首先，我们需要进行数据标注。在标注过程中，我们定义了一些标准，包括全局标准、图文相关性、图像质量、图像细节和图像美学。每个标准都按照 1 到 5 分进行打分。这些打分是在对战场景下进行的，而不是单独对一张图进行打分。通过这种方式，我们收集了 90 多万个标注数据，这应该是目前文生图行业中关于质量标注规模最大的数据集。这项工作发表在了今年的 CVPR 24 上，我们也把代码、权重和模型开源给了大家。我们训练的奖励模型在结构上类似于 CLIP，一路负责图像建模，一路负责文本建模，然后通过 Cross Attention 的方式进行信息融合。最后，使用我们打的 1 到 5 分的标签作为监督信息来拟合整个图像的质量。

技术讨论三：

怎样让大模型写好中国字

在可图发布之前，很少有人敢想象大模型能够书写中文。众所周知，英文只有 26 个字母，书写相对简单，而中文则完全不同，它包含成千上万的汉字，每个字都有独特的笔画和结构，这对大模型来说是一个巨大的挑战。然而，可图的发布让人们看到了希望，认为或许我们能够通过大模型来书写中文。

最近，大家可能看到了 Flux 展示的书写能力，以及早先 DALL-E 3 的书写能力。英文书写方面，大家已经做得相当不错，但中文书写之前的情况并不是这样。写字能力是视觉生成大模型的“上乘武功”，特别是开放域的中文写字能力，写对和写好是技术难点。我们开源的可图大模型虽然在一些案例中表现出色，但实际使用中可能并不像看上去那么完美。一些用户可能会发现，想要生成理想的结果并不那么容易，有时候就像抽卡游戏一样，很难抽到那张想要的“卡”。为了改善这种状况，我们将书写场景细分为两种类型，以规范和优化生成过程。第一种是“随便写写”，这种场景更多是为了娱乐和尝试。第二种是“认真写写”，这种场景适用于需要精确和高质量输出的情况。

第一个场景——“随便写写”。在这个场景中，用户几乎无法控制生成的结果，只能通过文本指令来生成文字图像，比如在衣服上或牌匾上书写特定的文字。这个过程主要依赖于数据。

我们的数据主要分为两大类。第一类是合成训练数据，我们通过选取图像底图并人工合成文字上去，可以控制字体、字号、颜色、位置和角度等参数。我们需要合成多少字呢？有两个标准可以参考：第一个是国家的 GB2312 标准，包含大约 6,000 多个汉字；第二个标准是二代身份证，它包含了大约 8 万多个字。在实际操作中，我们需要根据业务需求将这些生僻字融入模型的训练数据中，这些数据量非常庞大，达到千万甚至上亿级别。但问题是，这些合成数据的质量参差不齐，且与真实场景的贴合度不高。

第二类训练数据是真实拍摄的数据，比如下图“大橘大利”、“北京大学”、“宁静致远”以及各种店铺招牌，这些文字的艺术感很强，因为它们都是真实场景中的拍摄结果。我们采用之前提到的 Quality Tuning 原理，先用大规模的合成数据进行初步训练，确保文字书写正确，然后使用小部分高质量数据进行微调，以提升文字的美观度。

如何实现认真的文字书写，我们提出了能够把字写好的黄金模型框架图，并希望它能够为大家提供一些灵感。这个框架图大致可以总结为四个要点：

双重可控。在之前的任务中，我们面对的是一个通用的文生图任务，没有加入任何可控因素。但当我们要把字写好时，就需要加入可控因素。这些可控因素包括两种：第一种是类似于 Adapter 这样的弱可控，它提供了一定程度的控制；第二种是类似于 ControlNet 这样的强可控，它对位置、旋转角度以及笔画都要进行严格的控制。
辅助损失。我们知道，在扩散模型中，损失通常是真实噪声和预测噪声之间的均方误差（MSE）损失。由于我们的目标是写字，因此我们还需要加入一个文本感知的损失，以确保生成的图像与文本描述相匹配。
训练策略。训练分为两个阶段。第一阶段是让模型学会写字，我们会输入大量的数据；第二阶段是让模型写得更好，我们会使用高质量的数据进行微调。
模型效果。通过引入可控因素，我们的模型效果得到了显著提升。可控条件的引入极大提高了文字绘制准确率，句准率从 15% 提升至 80%+，字准率 Levenshtein Ratio（一种衡量编辑距离的比率）从 32% 提升至 90%+。

技术讨论四：

怎样做好虚拟试穿

虚拟试穿这个概念大家都比较熟悉，就像腾讯的 QQ 秀，用户可以选择不同的衣服，然后将这些衣服“穿”在模特身上，这就是 AI 试穿或虚拟试穿的概念。虽然这个概念早在 20 年前就已存在，但以往的方法多是基于 3D 建模、硬件设备或图形学技术。直到 2023 年，随着融入了丰富世界知识的通用视觉生成模型的出现，虚拟试穿才真正变得可行。

在介绍虚拟试穿的概念时，我们首先来看模特这部分，主要分为两类：

AIGC 模特：这对于许多中小商家来说非常重要。这些商家可能有自己的衣服，但请不起模特，也无法去摄影棚拍摄，还可能面临版权问题。AIGC 模特可以帮助解决这些问题。
真实模特：对于终端用户来说，在购买衣服时，他们更倾向于提供自己的生活照片，然后尝试将喜欢的衣服“穿”在这些照片上。

接下来是衣服，从款式上我们可以分为三类：上装、下装和长款。从样式上我们也分为三类：

白底图：许多电商平台都有这种图，背景简单，只有衣服。
随拍服装图：这种图的背景相对复杂，衣服可能在各种环境中被拍摄。
服装模特图：这是非常重要的一类，因为很多时候人们想试穿的衣服并不是平铺在白底上的，而是他们喜欢的某个明星或朋友穿在身上的。这种情况下，衣服是穿在人身上的。

从 2024 年开始，无论是在工业界还是学术界，都有许多研究致力于虚拟试穿技术，这个领域变得非常热门。以阿里巴巴为例，据不完全统计，阿里巴巴就有六个关于试穿的项目，包括绘蛙、妙鸭、淘宝试穿，以及阿里妈妈的万象实验室等。这表明对于电商平台来说，试穿功能的重要性日益凸显。在这一领域，我们想分享一下整个行业的要求和面临的难点：

保持人物身份：试穿效果中的人物必须看起来像用户本人。
保持人体特征：这包括保持用户的姿态和体型。
保持服装款式：需要确保服装的款式和标识，如 logo，得到准确呈现。
保持服装细节：服装上的细节也需要得到精细的展现。
保证效果自然：试穿效果需要看起来自然，不能有太强的合成感。
保持跨款式的试穿稳定性：当模特更换不同款式的衣服时，如从长袖换成短袖，需要适当展示模特的肤色和身体部分；同样，如果换成长款羽绒服，需要在下面生成相应的裤子部分。

如果大家刚开始尝试虚拟试穿，但不确定选择哪种技术方案，我们希望以下的技术方案能够提供一些启发。按照这个方案去实施，应该能够得到一个在行业内具有竞争力的试穿效果。简单来说，这个方案包含两个主要部分：

下面的 Try-On Net 单元负责试穿：这个单元本质上执行的是一个局部重绘任务，它的目标是将选定的服装重绘到模特的图片上。
上面的 Garment Net 单元负责衣服建模：这个单元专注于对衣服进行建模，同时我们需要提取与模特相关的多种特征，包括：
遮罩特征：用于识别和定位模特的身体部分。
姿态特征：如 DWPose、OpenPose、DensePose 等，用于捕捉模特的姿态。
3D 特征：用于更全面地对人体进行建模。

在完成初步的试穿效果后，我们还需要进行局部细节修复。由于分辨率等问题，第一版的试穿结果可能并不完美。例如，可能无法清晰地显示出阿迪达斯的 logo。这时，我们需要一个带有监督的服装信息复原模块，对衣服的细节进行重绘，以清晰地展现这些细节。为了让大家能够体验到我们的技术，我们在 Hugging Face 上静默发布了一个试穿 DEMO。如果大家有兴趣，现在就可以去体验一下这个 DEMO：https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-On

我们将对市面上现有的一些虚拟试穿产品进行比较。通过几个案例展示我们目前面临的一些技术难点。比如跨款式试穿。这与现实中的试穿非常相似，如果你穿着长袖衣服，想要换一件短袖，你肯定需要先脱掉长袖，再穿上短袖。虚拟试穿中，我们需要在技术上实现类似的效果。

如果我们将这种试穿技术与我们的视频生成技术（如可灵图生视频）结合起来，用户不仅能看到静态的试穿效果，还能看到服装动态地穿在模特身上的效果。这种动态展示在消费端一定能显著提升用户的购物体验。

视觉生成方向的未来展望

我个人对未来视觉生成方向有一些展望，这里将其分为七个要点来和大家讨论。

可控性：到目前为止，视觉生成行业的主要难点在于可控性，这将成为 2024 年甚至 2025 年的主旋律。可控性包括输出效果、身份、风格、安全性和文本相关性的可控。所有文生图基座团队应该关注这个指标。
模型尺寸：视觉生成的 Scaling Law 仍在逐步验证中。从早期的 1B 模型到 3B、8B，甚至最近的 12B 模型。同时，我们也应注意到模型小型化的趋势，类似于大语言模型的发展。
数据生态：随着基座模型的出现，大量数据供应商将涌现，他们的营销将与明星产品绑定。在选择数据供应商时，需要甄别版权资质和可靠性。预计版权侵权的司法诉讼将增多。
技术框架：扩散模型将继续是行业的主流。我们可以看到，扩散模型的主体正从 U-Net 逐渐转向 DiT，这一趋势已经非常明显。未来我们可能会看到 AR（Auto Regressive）框架的优势。AR 框架的主要优势在于它能够将生成问题和理解问题融合到一个统一的框架中，这可能会为视觉生成领域带来新的突破。我们相信图像生成与视频生成将逐步实现鲁棒统一。尽管目前还无法实现单一模型同时解决多模态的图像和视频生成问题，但我们对未来的发展持乐观态度。
合法溯源：随着生成式内容在互联网上的普及，鉴伪变得越来越重要。生成的内容需要能够追溯到个人和平台。许多基座模型平台，包括我们，已经收到监管方的信号，我们正在与监管方合作，寻找方法确保每一张 AIGC 图片都能溯源。确定内容是由哪个平台、哪个用户生成的，对于维护整个生态的安全至关重要。
开源爆发：我对开源，特别是视频开源的未来非常乐观。我相信，就像智谱的 CogVideoX 一样，我们将看到越来越多的视频和图像框架走向开源。这种开源行为主要是为了在生态系统中获得更大的话语权。然而，算力问题意味着在视频生成领域，高校很难参与进来。与图像生成不同，高校如果不与企业合作，很难有机会参与到视频基座模型的研发中。
能力定位：我们需要考虑 AIGC 能做什么。以视频生成为例，一些人可能认为，只需让用户在平台上使用视频生成工具来提供内容就足够了。但我个人对此持保留态度。在短视频平台上，我们关注的是作品背后的人，我们希望与这个人互动，购买他们推荐的产品，并与他们进行线下交流。这是短视频行业真正希望实现的。而 AIGC 作品背后并没有这样一个有灵魂的创作者，没有真人与之绑定，AIGC 作品往往只适合看一遍，再看就觉得乏味了。那么，AIGC 的视频生成或图像生成真正的价值在哪里呢？我认为它真正的价值在于影视特效领域。例如，在拍摄《速度与激情》时，我们不需要真的花费数百万美元去撞毁兰博基尼和法拉利，而是可以使用视频生成技术将这些成本降到最低。这可能是视频生成目前一个比较清晰的应用场景。

演讲嘉宾介绍

李岩，快手可图大模型团队负责人。中科院计算所博士，快手可图大模型团队负责人，原微信视频号内容理解负责人，主要研究方向为多模态内容理解与生成技术，在人脸识别、图像理解、图像生成、视频生成等领域有 15 年以上的算法研发、业务落地及管理经验。荣获 2024 AICon 全球人工智能开发与应用大会·上海站明星讲师。

会议推荐

2024 年收官之作：12 月 13 日 -14 日，AICon 全球人工智能开发与应用大会将在北京举办。从 RAG、Agent、多模态模型、AI Native 开发、具身智能，到 AI 智驾、性能优化与资源统筹等大热的 AI 大模型话题，60+ 资深专家共聚一堂，深度剖析相关落地实践案例，共话前沿技术趋势。大会火热报名中，详情可联系票务经理 13269078023 咨询。

今日荐文

中国存储厂，杀入顶分桌

Apple Intelligence 终于实装 iOS 18.1，用上的第一批用户已经开骂了？

微软CEO薪酬暴涨63%至7910万美元；文远知行纳斯达克正式上市，大涨触发两次熔断；商汤回应多业务线裁员 | AI周报

太古可口可乐：将经验转化为数据，探索行业专有模型

昔日好友反目，Arm、高通疯狂“互掐”！最新回应：我们都不忍了，打官司！

你也「在看」吗？👇

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。