专题|AI音频软硬结合声动未来,AI视频扬帆起航【信达传媒互联网&海外冯翠婷】

文摘   2024-10-17 10:48   上海  

报告全文详询信达证券对口销售或

冯翠婷(fengcuiting@cindasc.com)


往期回顾










周观点 | A股传媒重点关注三季报绩优标的、新游测试及AI迭代,港股及美股中概股仍具备相对配置价值【信达传媒互联网&海外冯翠婷】
周观点 | 继续看好港股和美股中概股未来表现,A股传媒行情目前仍刚启动【信达传媒互联网&海外冯翠婷】
重磅政策落地,重点关注港股配置机会,A股传媒部分赛道有望受益【信达传媒互联网&海外冯翠婷】

      内容摘要


OpenAI DevDay AI 音频更新亮眼,有望催化AI语音交互应用成熟。2024年10月1日,OpenAl开发者大会上,公司公布了几大创新:实时 API、提示词缓存、模型蒸馏、视觉微调。与 ChatGPT的高级语音模式类似,Realtime API支持使用六种预设声音进行自然的语音对语音对话。文本输入令牌的价格为5美元/1M tokens,输出令牌的价格为 20 美元/1M tokens。音频输入的价格 100 美元/1M tokens输出的价格为 200 美元/1M tokens。这相当于每分钟音频输入约 0.06美元,每分钟音频输出约 0.24 美元。

海外 AI+音频代表性应用 Duolingo 股价历史新高,Duocon2024 发布独特虚拟 IP 视频通话、虚拟世界探险学玩、扩展音乐课程等功能,订阅付费渗透率逐渐提升至 8%以上。公司财务和经营数据均表现较为亮眼。24Q2 公司实现营收1.78 亿美元,比去年同期增长41%;调整后的 EBITDA为 4810 万美元,去年同期为 2090 万美元,24Q2和23Q2调整后的EBITDA利润率分别为 27.0%和 16.5%;用户情况:24Q2 Duoling0 月活超过1亿,季度末付费用户总数达到800万,比去年同期增长 52%,即目前Max产品付费率超过8%,本次产品更新有望进一步加速 Max 产品付费渗透率。

AI+视频迭代持续火热,Meta、字节发布新模型,美图 MOKI一键成片产品正式上线,可灵、Pika迭代新版本。1)10月4日,Meta发布了 Meta Movie Gen 模型,是一项针对图像、视频和音频的突破性生成式AI研究,Movie Gen 具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。2)字节豆包视频大模型PixelDance&Seaweed--主打时序性复杂动作指令和交互能力。字节跳动正式进军AI视频生成领域,其数据、技术和人才等储备深厚,9 月25 日,视频大模型赋能的字节C端产品--即梦正式开启内测邀请。3)2024年9月30日,快手可灵Al视频模型产品发布产品更新,产品重点新增「对口型」功能:4)Pika1.5引入了一套创新效果,称为Pikaffects,允许用户轻松大幅改变视频元素,例如:膨胀爆炸、压碎、融化、挤压和蛋糕化;5)美图MOKI一键成片正式上线开放。

投资建议:
AI 音频方面:在语音实时对话效果不断提升的基础上,相比之前的虚拟陪伴、虚拟人物的语音互动,OpenAl Realtime APl 更有望催生一大批基于纯语音交互的 AI 应用,例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注:盛天网络、中文在线、汤姆猫、昆仑万维等:

Al 视频方面:远不止于视频生成,从 AI 生成到 AI 工作流,一站式Al视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团利欧股份;5)UGC 社区类公司,如Bilibili;6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择;7)IP 类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化;8)探索 Al 视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。

风险因素:Al 大模型发展不及预期、AI视频产品付费率提升不及预期;

报告正文


Al+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本

(一)Meta Movie Gen——主打精确视频编辑和音视频同步生成
2024年 10 月4日,Meta 发布了 Meta Movie Gen 模型,是一项针对图像、视频和音频的突破性生成式 AI 研究,Movie Gen 具有四种功能:
视频生成、个性化视频生成、精确视频编辑和音频生成1)视频生成:该 30B参数转换器模型能够以每秒 16 帧的速度生成长达 16 秒的视频,2)个性化视频生成:将一个人的图像作为输入,并将其与文本提示相结合,以生成包含参考人物和文本提示所告知的丰富视觉细节的视频。3)视频编辑:同一基础模型的编辑变体以视频和文本提示作为输入,精确执行任务以生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑(例如添加、删除或替换元素)以及全局更改(例如背景或样式修改)。4)音频生成:13B 参数音频生成模型,该模型可以接收视频和可选的文本提示,生成长达 45 秒的高质量高保真音频,包括环境声音、音效 (Foley)和乐器背景音乐,所有这些都与视频内容同步,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了一流的性能。

Meta 首先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成模型,模型架构上,Meta采用了Transformer,整体位于 Llama3 的设计空间中。推理阶段,Meta 的一个创新思路是首先使用 Llama3 对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。

个性化视频生成:基于 Meta 发布的 30B Movie Gen 视频模型,公司拓展到了个性化视频的生成,用户只需提供人物图像输入和对应的文本提示词,就能生成包含该人物以及文本描述的细节的视频。Meta 表示 Movie Gen生成的个性化视频在保留人类身份和运动方面做到了 SOTA。训练过程先是进行预训练(分为身份注入、长视频生成、提升自然度三个阶段),然后执行监督式微调。

视频精确编辑:给定一段视频和文本提示词,模型可以生成符合要求的经过修改的输出,其中包括一些非常高阶的编辑功能,比如添加、移除和替换元素,修改背景和风格等全局要素。Meta 团队同样采用了一种多阶段方法:首先执行单帧编辑,然后进行多帧编辑,之后再整体编辑视频,效果图中展示较好。

音频同步生成:Meta 训练了一个 138 参数的音频生成模型 Movie Gen Audio。该模型可以基于视频和可选的文本提示词生成长达 45 秒的高质量高保真音频,包括环境声音、音效(Foley)和背景音乐 -- 所有这些都与视频内容同步。公司还提出了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,用户后续可以直接生成带有背景音乐的 AI视频,相较目前AI视频竟品来看,技术端有了较为不错的进步。

(二)字节豆包视频大模型 PixelDance&Seaweed——主打时序性复杂动作指令和交互能力 
字节跳动正式进军AI视频生成领域,其数据、技术和人才等储备深厚。2024年9月 24 日,2024 火山引擎AI创新巡展在深圳举办,发布了两款豆包视频生成大模型--PixelDance 和 Seaweed,开启了邀测阶段。9月 25日,视频大模型赋能的字节 C 端产品--即梦正式开启内测邀请。

1)PixelDance V1.4是基于 DiT 结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的精彩视频片段。模型可完成时序性多拍动作,支持多主体复杂交互,还拥有丰富的运镜效果,多风格多比例兼容性强,能快速生成优质的视频片段,赋能影视创作,广告传媒,短视频,直播,电商等多个场景,

2)Seaweed 视频生成大模型基于 Transformer架构,支持文生视频和图生视频。利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为 720p 分辨率、24fps、时长5秒,并可动态延长至 20-30 秒。

(三)可灵 AI 更新“对口型”功能 
2024年9月30日,快手可灵AI视频型产品发布产品更新,产品重点新增「对口型」功能,支持用户在可灵AI生成人物视频后,上传配音或歌唱,可灵 AI 就能让视频人物口型和音频完美同步,仿佛真人对话/唱歌,视频瞬间栩栩如生。1)使用可灵 AI,生成包含完整的人物面容的视频;2)点击预览视频下的「对口型」;3)上传配音1歌唱音频,即可进行对口型效果生成。可灵 AI 后续同样有望发力视频剪辑功能,更好满足创作者需求。

(四)Pika 1.5 更新“Pikaffects”效果

Pika 1.5 引入了一套创新效果,称为 Pikaffects,允许用户轻松大幅改变视频元素,例如:膨胀、爆炸、压碎、融化、挤压和蛋糕化。同时,Pika1.5 引入了 Big Screen Shots(大屏幕快照)功能,旨在为用户的视频带来电影般的风格和专业品质的视觉效果。借助先进的摄像技术和动态效果,用户可以轻松创建具有影响力的好莱坞风格镜头,而无需昂贵的设备或高级编辑技能。1)子弹时间:一种慢动作效果,摄像机围绕拍摄对象移动,类似于《黑客帝国》等电影中的标志性场景,为关键时刻增添戏剧效果。2)急速变焦:一种快速放大效果,可立即聚焦于某个拍摄对象,营造出紧张和强烈的感觉。3)起重机上升:模拟上升的摄像机运动,拓宽视角并为视频添加专业的电影感。4)快速摇摄:快速的水平摄像机移动,可增加场景之间的活力和平滑的过渡。5)挤压效果:使物体看起来被挤压或变形,为视频添加有趣或夸张的元素。

(五)美图 MOKI 生成短片功能上线——主打一键成片
2024年9月27日,美图公司宣布,旗下A1短片创作工具MOKI全面开放,用户可登录MOKI官网进行体验。与市面上流行的文生视频产品、图生视频产品不同,MOKI专注于 AI短片创作这一场景,覆盖动画短片。网文短剧、故事绘本、MV等多个类型的视频内容生产,结合行业需求,有针对性地打造了一套AI短片创作工作流。MOKI的核心优势在于一站式成片能力,得益于AI驱动的脚本、分镜、视频生成、配音、配乐能力,即使是没有专业背景的普通用户,也能通过 MOKI轻松上手,快速创作出具有个人特色的短片。

OpenAl DevDay Al 音频更新亮眼,有望催化 Al 语音交互应用成熟

2024 年 10 月 1 日,OpenAI 开发者大会上,公司公布了几大创新:实时 API、提示词缓存、模型蒸馏、视觉微调。

1)Realtime API:让开发者可以构建近乎实时的“语音转语音”的体验,并可以选择使用 OpenAI 提供的六种声音。
2)提示词缓存:类似于 Anthropic 几个月前推出的缓存功能,允许开发人员在 API 调用之间缓存常用上下文,从而降低成本并改善延迟。
3)模型蒸馏:让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如GPT-4o mini)。
4)视觉微调:使开发人员能够使用「图像」结合「文本」,来微调他们的 GPT-4o 应用程序,“看”的能力被极大强化。
5)新广场玩法:提示词新的框架、用法等,以及结构化输出新的突破,这些让开发变得前所未有容易。

OpenAI 推出了 Realtime API 的公开测试版,让所有付费开发者都能在其应用中打造低延迟、多模式体验。与ChatGPT 的高级语音模式类似,Realtime API 支持使用六种预设声音进行自然的语音对语音对话。OpenAI 还在 Chat Completions API 中引入了音频输入和输出(在新窗口中打开)以支持不需要 Realtime API 的低延迟优势的用例。通过此更新,开发人员可以将任何文本或音频输入传递到 GPT-4o,并让模型以他们选择的文本、音频或两者做出响应

比如:1)Healthify 是一款营养和健身指导应用程序,它使用实时 API实现与其 Al 教练 Ria 的自然对话,同时在需要个性化支持时让人类营养师参与进来。2)Speak 是一款语言学习应用程序,它使用 Realtime APl来支持其角色扮演功能,鼓励用户用新语言练习对话,

RealtimeAPI收费模式和价格:文本输入令牌的价格为5美元/1M tokens,输出令牌的价格为 20 美元/1Mtokens。音频输入的价格为 100 美元/1M tokens,输出的价格为 200 美元/1M tokens。这相当于每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元。

海外 AI+音频代表性应用公司及应用场景:Duolingo(语言及其他课程学习)

2024年9月24日,全球领先的移动学习平台 Duolingo 在其年度会议 Duocon 2024 上宣布了重大产品创新,主要包括:独特虚拟IP 视频通话、虚拟世界探险学玩、扩展音乐、数学课程等更新。

1)Video Call With Lily 口语对练:这一功能已上线 iOS 端的英语、西班牙语及法语课程,供海外部分市场的Duolingo Max会员使用。允许 Duolingo Max 订阅者与 Duolingo 最受欢迎的角色之 Lily 进行自发、真实的对话;
2)Adventures:一种创新的探索游戏式体验,用户首次可以探索动态设置和故事情节,通过结合上下文来与拽姐、奥斯卡等高人气角色对话,完成任务。
3)Music:Duolingo 宣布与领先的便携式乐器制造商 Loog 合作,打造专为 Duolingo Music 课程设计的紧凑型便携式数码钢琴,课程售价为 249 美元;
4)数学课程:多邻国新增四款益智游戏,模拟更加生活化的教学场景,满足不同群体的学习需求。

目前 Duolingo 股价历史新高,受益于生成式 AI,公司产品的用户付费率逐渐提升,公司财务和经营数据均表现较为亮眼。24Q2 公司实现营收 1.78 亿美元,比去年同期增长 41%;调整后的 EBITDA为 4810 万美元,去年同期为 2090 万美元,24Q2和23Q2调整后的 EBITDA 利润率分别为 27.0%和 16.5%;用户情况:24Q2Duolingo 月活超过1亿,季度末付费用户总数达到800万,比去年同期增长52%,即目前Max产品付费率超过 8%,本次产品更新有望进一步加速 Max产品付费渗透率。

国内 AI+音频应用主要上市公司 

(一)汤姆猫

金科汤姆猫投资企业西湖心辰,其旗下心辰 Lingo 端到端语音大模型表现较优,在拟人语音交互方向较为领先。西湖心辰成立于 2021年7月9日,已获得汤姆猫、蓝驰创投、凯泰资本、百度风投、西湖教育基金会可持续发展平台等知名机构数千万美金投资,作为国内首个端到端通用语音大模型,心辰 Lingo 在处理对话时可以直接理解语音,捕捉语气、节奏和情绪,并进行语音回复,减少了信息处理过程中的损失,让“机器”更懂人。未来,将优先在 AI销售、 AI心理咨询、AI 儿童陪伴三大领域完成相关产品的落地。

心辰 Lingo 的落地场景例如:具身智能融合、心理疗愈、客户服务、儿童教育、岁月档案等。心辰 Lingo 可以扮演不同的助手角色,根据用户的需求和指令,提供个性化的语音服务。在心理健康应用中,心辰 Lingo 可以根据用户的情感状态,模拟“朋友”以及“亲人”的沟通方式,通过定制语音提供安慰和鼓励,帮助用户缓解压力和焦虑;在客户服务场景中,心辰 Lingo 卓越的即时响应能力,能确保在与用户交流时提供无任何体感延时的语音服务。

(二)盛天网络:AI 音乐+社交——“给麦” 

2023年7月,盛天网络与超拟人大模型开发商聆心智能开展合作,拟将人工智能科技与自有娱乐场景有机结合,共同打造、探索 AI+游戏社交互动新场景。在 2023 年推出“给麦”APP.

自 2023 年上线以来,“给麦”APP 不断迭代升级,目前公司已在多模态模型中的情感分析、语音、文字识别等领域实现应用突破,涉及图像、视频、语音、文本等融合内容,推出了包括 AI歌声进化1.0、给麦AI实验室+AI歌声进化 2.0、AI全民会说唱、AI写歌等多个版本和专题内容,迅速积累了大量忠实用户,并在iOS 音乐类排行榜上取得了最高第六的佳绩;未来,“给麦”将继续在A音乐创作方向深耕,提升音色克隆和音频1歌曲合成算法模型,为用户提供更优质的 A1翻唱体验。同时,平台也在积极探索 AI音乐创作新领域,目前已上线AI写歌 2.0、AI 作品广场 2.0版本,支持写词、写曲、写歌等,后续也将探索更多内容如 AI专辑封面、AI 音乐MV等,满足用户对音乐创作的需求。在AI音乐社交方面,“给麦”计划开放 AI虚拟人分身创建,支持更多角色如 AI-CP、AI疗愈师等,拓展线上元字宙社交的可能性。

(三)昆仑万维: 

2024年8月 14日,昆仑万维正式发布全球首个A流媒体音乐平台 Melodio,并同步推出 A 音乐商用创作平台 Mureka。两款产品均搭载昆仑万维新款自研 DiT(Diffusion Transformer)架构音乐大模型 Skymusic 2.0.这是业内首个能够持续稳定生成特定风格歌曲的 A|音乐大模型。相较于上一代模型,Skymusic 2.0 支持 500字以上的歌词输入,生成长达6分钟双声道立体声歌曲。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案,改变音乐生成内容。根据 Statista数据,2023 年全球纯流媒体音乐订阅收入为 193 亿美元。在全球音乐巨头 Spotify 平台上,近 50%用户曾经收听过“心情|场景类”歌单,用户对于场景类的音乐需求强烈。

商业模式:Mureka是一款革命性的 AI 音乐商用创作平台,专业艺术家与音乐爱好者均可在 Mureka 平台上创作专属音乐,并通过歌曲商店展示、收听、收藏、分享、下载,同时获得AI乐曲创作证明。用户还可以将满意的作品上架到 Mureka 平台进行出售,以此获得AI音乐带来的收益。在 Mureka 创作歌曲将消耗用户付费积分(credits)。歌曲创作完成后,用户可以下载创作证明,并申请在 Mureka歌曲商店(Store)中进行展示出售。也可以付费购买歌曲的伴奏和分轨音频。用户在平台出售歌曲的收益,Mureka会按既定比例进行抽佣。

投资建议

AI音频方面,在语音实时对话效果不断提升的基础上,相比之前的虚拟陪伴、虚拟人物的语音互动,OpenAlRealtime API更有望催生一大批基于纯语音交互的 AI应用,例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注:盛天网络、中文在线、汤姆猫、昆仑万维等;

AI视频方面,远不止于视频生成,从AI生成到 AI工作流,一站式AI视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司,如快手:4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利欧股份;5)UGC 社区类公司,如 Bilibili; 6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择:7)P类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化:8)探索 A1视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。


风险因素

AI 大模型发展不及预期:AI 大模型升级迭代速度减缓,多模态大模型升级不及预期;
AI 视频产品付费率提升不及预期:AI+视频产品力较弱,用户付费意愿较低影响公司现金流。

本文部分节选自报告∶《AI音频软硬结合声动未来,AI视频扬帆起航
报告发布时间∶2024年10月16日
发布报告机构∶信达证券研究开发中心
作者∶冯翠婷S1500522010001

寻找涨婷
我们坚持“高频·深度”研究,对全球科技和消费的新趋势充满好奇,珍惜每一次与市场和产业交流的机会,期待与您一起共同成长。 寻找涨,是我一个很质朴的目标。 我是信达证券传媒互联网及海外首席分析师冯翠婷。
 最新文章