当我们想根据一版 PPT 制作出相对应的解锁视频时,从撰写解锁词,录制音频到剪辑视频,每一个环节都需要投入大量的时间和精力,本方案将依托于阿里云函数计算 FC 和百炼模型服务,实现从 PPT 到视频的全自动转换,将静态的 PPT 转化为动态视频。
适用客户
Cloud Native
期望通过 AI 技术将 PPT 转换为教学视频的在线教育机构
希望减少视频内容创作时间和成本,专注于创意构思的自媒体创作者
使用产品
Cloud Native
大模型服务平台百炼
函数计算 对象存储
架构与部署
Cloud Native
在制作线上课程、自媒体内容或者活动宣传视频时,用户通常需要撰写解说词、录制音频和剪辑视频,制作流程繁琐且周期较长。本方案利用函数计算 FC 部署 Web 应用,调用百炼模型服务实现 PPT 到视频的自动转换。
方案中涉及多种模型:视觉模型(qwen-vl-max-latest)用于理解 PPT 图文内容,快速生成与之相匹配的解说词;文本模型(qwen-plus)对解说词进行优化,提高其可读性和吸引力;语音模型(cosyvoice-v1)则根据解说词生成生动流畅的旁白音频。系统自动整合图片、文本和音频素材,将原本静态的 PPT 转化为结构严谨、过渡自然的动态视频。整个过程高度集成化,用户只需进行简单的几步操作,即可轻松实现从 PPT 到视频的转换。
本方案的技术架构包括以下云服务:
函数计算 FC:用于部署应用程序。 对象存储 OSS Bucket:用于存储从 PPT 文件中分解出的每一页图片。 大模型服务平台百炼:提供视觉模型、文本模型和语音模型服务,用于解说词创作、解说词优化和语音合成。
1. 请点击前往部署[1]打开我们提供的函数计算应用模板,参考下表进行参数配置,然后单击创建并部署默认环境。
文本理解:主要根据文字生成解说词,若配图关联度低则不予考虑。 深度理解:深入理解并分析 PPT 中呈现的架构图、流程图等视觉信息,解读其含义与逻辑关系。
系统将根据解说词生成音频和字幕,最后整合音频、字幕和图片合成视频。生成过程所需时间会根据 PPT 的页数有所不同,整个生成过程预计需要 5 分钟左右,请您耐心等待。 为了方便用户快速体验效果,当前应用为演示版本,体验完毕请及时释放资源。若想用于生产环境,建议下载源码:获取源码[2],可以进行二次开发,同时打开登录鉴权功能。
总结
Cloud Native
https://fcnext.console.aliyun.com/applications/create?template=ppt2video&deployType=template-direct&from=solution
https://atomgit.com/aliyun_solution/ppt2video