生成式AI在过去2年吸引了全球目光,ChatGPT用破纪录的5天时间达到百万用户,2个月破亿,Sora可生成最长1分钟的模拟真实世界的视频,Suno创作出让用户惊艳的音乐作品,我们看到AI在文本、图像、视频、音频生成等领域取得了重大突破,OpenAI和Anthropic为代表的公司完成了数十亿到百亿美金的融资。大家在经历AI技术日新月异的突破的同时,也关注生成式AI如何应用落地,如何产生商业价值。
王鹤宇 Heyu Wang
CMC资本 投资副总裁
专注投资领域:人工智能、企业服务、泛科技
陈弦 Alex Chen
CMC资本 管理合伙人
长文预警:本文约7700字,
预计阅读时长:19分钟
大家过往接触的AI,即所谓AI1.0,是判别式AI,机器可以在计算机视觉、自然语言理解等领域超越人类,常见的智能内容推荐、智慧安防摄像头、货架识别等都是AI1.0时代的应用,诞生了商汤为代表的“AI四小龙”和字节这样的超级独角兽。
模型架构上,AI1.0时代主要基于RNN等网络,RNN的数据处理使用的是串行,导致处理长序列数据能力有限;训练方法上,主要使用有监督学习,需要大量的标注数据和专业的编程人员,以上都导致其Scalability有限,往往一个模型对应单一的任务,其自身的泛化能力也有限。模型的参数通常在百万-千万级别,因此在算力上,部分模型使用消费级显卡即可。
模型架构上,2017年谷歌提出了Transformer架构,引入自注意力机制,如在自然语言处理时,它能让模型评估句子中各个词的重要性,从而根据上下文锁定关键信息,提高下一阶段的文本预测与建模能力。Diffusion模型,模仿物质在气体或液体中扩散的过程(如墨水在水中的扩散过程),通过前向扩散(加噪)和反向扩散(去噪)不断修正训练自己,在图像、视频、音频领域展现了良好的生成能力,超越了GAN的地位,模型本身的Scalability较AI1.0时代取得重大进步。
图:生成式AI的模型、数据、任务关系
新型生产关系
我们看好生成式AI的新范式,不仅是其远大于AI1.0的市场空间,更是看好其所代表的新型生产关系。过去的生产过程中,工厂消耗能源和基础材料,制造出实体的产品。未来的核心生产关系将围绕着电力、AI模型和token(数据)展开。数据中心作为AI工厂,在电力供能下,结合AI模型,通过token不断生产信息化的内容(语言、图形、视频、音乐等),也即是新的成产出来的产品,围绕token的新型生产关系正在形成,构筑新一轮的信息工业革命。当然以上是我们认为的远期状态,当前也仅仅是生成式AI取得大的影响力突破的第二年,该新型生产关系还在构建和发展中。
B端对内容的精准、可控、一致性、可靠性、稳定性有着极高的要求,C端虽然相对要求更包容,但也存在着来自合规性的监管,这些要求给尚不满完美的生成式AI如何落地带来了挑战。
Transformer模型,1)缺乏可解释性,神经网络本质上是黑箱模型,输入和输出之间的关系是通过训练数据和复杂的计算学习到的,而非通过明确的规则编码,在金融、医疗等复杂、专业或者高度监管的行业中,模型的决策过程需要符合特定的法规和标准,不可解释性可能导致合规性问题;2)会出现幻觉,产生逻辑谬误、捏造事实以及数据驱动的偏见,也就是通俗说的大模型“一本正经的胡说八道”,客户可能对模型的输出结果持怀疑态度,难以建立信任,如用AI检索的结果,为了保证真实,需要复查,特别是在安全性和严肃性要求较高的场合此问题更加突出;3)除此之外,计算和内存消耗大,特别是在处理大规模数据集时,需要大规模并行计算能力;4)优化难度大,模型的复杂性和参数量大增加了优化难度。
Diffusion模型,1)扩散模型可以生成图像和文本,但它们还难以同时理解和生成涉及多种类型数据的复杂多模态内容。比如目前用扩散模型生成一张“红色衣服”的图片较为简单,但让其生成一张胸前印着“明天总是美好的”红色衣服图像,生成的衣服上的文字往往出错;2)扩散模型仍是随机采样,导致其生成内容的精准、可控、一致性等方面仍然不足,比如同样的prompt下,AI生成的2个漫画男孩不是同一人,这就导致了应用前后不对应的问题,使得商业落地困难。虽然业界在积极探索,ControlNet,LoRA,Dreambooth等技术的出现对局部内容实现了控制,如人脸、画风、动作等,但仍有较大的进步空间;3)其基于高斯求和的方式会带来求解难度的提高,尤其随着维度的上升会带来显存占用的几何级别的增长。这种架构下,显卡的显存大小限制了视频的时长,目前最长的AI生成的视频时长在1分钟左右,仍无法在长视频应用场景呈现。
虽然目前的模型能力还有不足,但我们也注意到模型架构也在迭代。工程上,如融合了Transformer和Diffusion的DiT,使用Transformer替换U-Net主干,并在潜在空间训练,展现出了比单纯Diffusion更好的训练效率和生成效果。再如Mamba架构,可进行“线性时间序列”建模,随序列长度增长其计算保持线性增长,而非Transformer的指数级膨胀,同时改善了注意力机制,减少了处理序列数据所需的计算量,加快了数据处理速度。同时学术界也在对模型底层的数学、人脑科学做更深层次的研究,希望能找到更多样化的实现AGI的通路。
End to End
方法:跳过现有专业制作流程,直接一步生成最终的内容
代表产品:ChatGPT, Midjourney, Suno
落地场景:主要在C端大众用户,用于泛娱乐的场景,或者非严肃场景,如编程,信息检索等
特点:1)简单直接,通常输入文字prompt描述,直接产出最终的内容;2)“黑盒”状态,过程不透明,生成的结果具备随机性;3)生成的内容往往不精准和不可控;4)基本上通过多次生成,选择最满意的方式进行生产
以漫画创作为例,漫画工具“AI Comic Factory”,提供了简单易用的用户界面和使用步骤:
方法:尽量沿用现有的工作流,不追求一步到位,AI专注于每一步工作的提效 代表产品:Adobe Firefly,ComicsMaker.AI 落地场景:主要用于B端的专业工作者,用在高质量工业级的生产制作流中
特点:1)对每个环节的生成内容相对更精准、更可控,2)往往和现有工作流和制作工具融合,更易于流程管理
图:某国内公司的AIGC动画制作step by step赋能案例
图:最终效果呈现
我们认为,虽然生成式AI在过去2年取得了快速发展,但今天行业仍在早期,长期我们确信AI会颠覆现有的工作流,甚至企业的管理学,但从务实的角度,B端的AI落地,会经历1)短期先Step by Step在可能的环节部分落地,降本增效;2)行业公司效仿,渗透率提升;3)技术进步,更多环节可以被AI赋能,渗透率再次提升;4)技术迭代,workflow开始合并缩短,甚至出现全新的成产方式;5)理论上最终极的方式可能是一步端到端。
预训练模型的本质是历史数据和知识的压缩,数据的质和量极大程度决定了AI能力。专有数据对于提升模型能力,满足企业的特定需求(调性风格、品牌特点、行业知识等)至关重要。
表:训练数据对比
因此我们也期待产业方更开放的同科技公司合作,目前虽然中国底层大模型的发展和学术研究暂时还处于追赶国外的状态,但中国的产业更丰富,我们对应用的落地有着更强的人才和资源投入,我们在AI2.0的商业化应用上有机会复现中国在AI1.0时代的引领地位。
对企业客户来说,经过我们的调研,相比于底层技术和实现方式,其往往更关注交付的效果,所以生成式AI的落地,除了行业know-how和专有数据以外,我们认为需要满足以下几点:
首先,是多个模态的组合
生成式AI的落地在众多的行业和场景,但从介质的角度来看,主要是文本/图像/视频/3D/音频。真的在产业落地,单一的模态往往是不充分的。其中,文本往往被广泛用作跨模态(和图像/视频/3D/音频)交互的自然语言,连接着多模态的组合。如AI制作3D游戏,就涉及到文本、图像和3D等模态,文本可用于编程和对话,以及其他模态的交互,图像用于人物设计的美术环节,3D用于建模环节。
通用和垂直模型组合:通用模型覆盖大部分业务,但对特定的垂直领域,调用对应的垂直模型,如法律翻译和文学翻译,AI翻译系统可以是不垂直模型的组合。
图:翻译场景通用+垂类模型
图:某媒体龙头公司的AI系统
智能化的基础是数字化,很多场景已经在AI1.0时代被企业服务公司覆盖,如智能客服、AI营销、翻译等。在已经被数字化改造的行业的提供企业服务公司,其有沉淀的场景数据,有业务的落地,有现成的客户access,如果叠加生成式AI的能力,如把大模型应用到客服系统和营销对话场景,对话效果比AI1.0的模型更加自然,从而获得更高的用户满意度和付费转化率。再如大模型对商业运营表现和市场商机进行分析,进一步完善BI(商业智能)的功能,这些都可以加深对客户的服务深度和拓宽服务边界,增加企业客户对产品的价值感。我们观察到在AI电商营销领域,随着生成式AI技术的普及,原本处于不同环节分工的企业,都在拓宽服务边界,彼此渗透,例如提供AI客服的公司,使用大模型能力,不仅提升了客户对话能力,也拓展到AI蓄客、营销文案制作、数字人、智能营销切片等。因此我们认为以上也是一个生成式AI 2B有机会的发展路径。
2024-06-20
2023-12-15
2023-11-15
2023-10-23