去哪儿国际酒店AI生成视频实践

企业 2024-07-31 09:25 广东

日前，在51CTO主办的WOT全球技术创新大会上，去哪儿旅行技术总监郑吉敏带来了主题演讲《国际酒店AI生成视频实践》，围绕着国际酒店的业务架构，详细介绍了生成视频如何进行流程AI化以及相关实践和思考，带给观众全新的视野和独家的经验分享。

本文将摘选其中精彩内容，统一整理，希望为诸君带来启发。

本文将从以下四个部分展开：

视频生成挑战与机遇
专业影视生成流程AI化
AI生成视频实践
视频生成成果展示与思考

视频生成挑战与机遇

我们首先来看看，国际酒店视频生成所遇到的挑战。

随着AIGC技术的发展，我们关注其在实际业务中的应用。我们认识到AIGC已具备生成视频的能力，且我们的业务对此有相应的需求。

因此，我们首先确定了使用AIGC生成视频的场景。

接下来，我们考虑如何将视频制作工程化，并确保视频质量。回到视频本身，目前其核心元素有两点：文案和图片。我们需要审视现有的文案和图片资源，通过组织这些内容生成视频，并以赋能现有业务作为终点。

在制作视频时，我们面临的第一个问题是素材选择。我们手头的素材已经明确，包括基础的文案、图片信息和用户点评，这些素材需要精心挑选并有效利用以生成视频。

素材选择的难点在于信息的筛选和利用。例如，酒店图片质量参差不齐，高星酒店的图片通常更清晰，成为视频的亮点，但并非所有酒店的图片都具备这一特性。此外，用户点评中包含多种语言，翻译后的信息可能无法直接使用。

面对这些挑战，我们需要找到解决方案，以确保视频内容的质量和准确性。

接下来谈谈挑战背后我们看到一些机遇。

围绕着国际酒店业务的异国风情特征，我们沉淀了高度多样化的信息。

对于观众观看体验来说，视频不仅仅是展示酒店，更重要的是通过视频传达酒店所在区域的多样性，以及与本地酒店不同的特色和定位。

我们面临的问题是国际酒店视频的制作是否能够成功，以下是我列出一些可行性的数据支撑：

1. 国际酒店视频覆盖率低。在开始之前，我们发现国际酒店视频的覆盖率大约为19.6%，显示了巨大的提升空间。

2. 视频对转化有明显提升。去年，我们对高星酒店视频进行了测试，结果显示视频显著提高了用户的转化率。

3. 国内酒店有视频生成经验。国内酒店已经针对低星酒店生成了视频，这验证了我们已经具备基础的视频制作能力。

基于这些基础，我们确定了国际酒店视频制作需要具备的三个基本特征：风格多样性、内容多样性和元素多样性。

专业影视生成流程AI化

我们将专业影视生产流程简化为四个关键步骤：

第一，策划创意。

第二，分镜创作。

第三，现场拍摄。

第四，后期剪辑。

围绕这四个过程，我们用上图简单介绍一下。

以上图的片段为例，每个分镜会有文案描述她的动作，并配有女生说的话或者内心独白来展现剧情。

通过这些元素的组合，我们能够制作出一个连贯的影视片段。每个分镜都由图片或视频、文案和语音组成，经过后期剪辑，形成一个完整的小视频。这是影视制作中的基本流程。

基于上述内容，我们来看看，视频制作流程的AI化。

视频本质上由多个分镜构成的，每个分镜都包含图片、文案、配乐等核心元素。在AI的帮助下对素材进行加工，从而生成每个分镜的内容。

随后，通过转场动画和特效，将各个分镜流畅地拼接成一个完整的视频。

AI生成视频实践

具体到AI生成视频的实践中，我们还会面临一个问题，就是判断视频质量高低的标准——如何生成一个用户愿意观看的内容？

我们总结优质视频有以下关键因素：

首先，我们强调价值趣味，这涉及到剧情设计和分镜的构思。我们需要考虑如何设计分镜，以及是否有合适的模板来更好地连接每个分镜。

紧接着是清晰画质，我们追求1080p甚至4K的高清标准，确保用户在观看时不会因为画质问题而感到不适。

最重要的，视频的主题应该是优质的。我们的目标不仅是画质和设计方面的精良，更要传达出酒店的亮点和特色，让用户通过视频就能直观感受到酒店的魅力。

最终，我们希望用户在观看视频后，愿意分享视频。

基于优质视频的基础元素，我们规划了视频生成的业务流程。

第一步，素材选取。我们首先提取图片和文字素材，并进行去重和高清处理，确保基础素材的质量。对于文字，特别是小语种，我们会进行翻译和亮点抽取，以适应不同语言环境的需求，达到实际可用的水平。

第二步，预处理阶段。这个阶段的目标是让图片和文字满足用户的基本要求。我们还会根据需要，将文字输入到大语言模型中，图片则输入到多模态大模型中，进行再加工。

第三步，分镜制作。我们会大量运用运镜和特效技术，模拟用户实际观察酒店的视角和动态效果。例如，对于酒店外景，我们会模拟用户走近酒店的动作，使用拉近效果；对于房型图片，则模拟用户在房间内的视线移动，通过左右迁移来增强现场感，让用户感觉身临其境。此外，我们还会根据场景添加特效，如海岛场景的叠化和模糊效果，夜晚场景的星星特效，营造更丰富的意境。

最后一步，模板剪辑合成。在这个阶段，我们将每个分镜与旁白结合，将完成的每个分镜，利用多套模板进行合成，通过特效和音乐确保视频的丝滑过渡，避免生硬感，最终生成一个完整的视频。

接下来我们看一下从业务层面，来看整个视频的生成。通常来讲我们还是以每个分镜作为我们的基础单元，构建以业务为核心的生产流程。

在构建业务模型时，底层的是AI技术的能力。这些能力包括文本预处理、图片预处理、大语言模型、多模态模型以及分镜制作和模板合成等，它们各自独立，为自研提供通用能力。

这种设计的优势在于，一旦上层思路确定，我们可以自由决定使用适合的AI能力，个性化的适配不同酒店需求。

业务模型的上层，是业务规则。前面也提到过，国际酒店的地域文化差异显著，我们采用定制化策略，使得视频与酒店的定位相匹配，避免视频的千篇一律。

接下来重点讲下模板，模版让我们以不同的方式组装分镜，业务的多样性决定了我们模版的多样性。

目前核心模版分这几类，商业简约风格、豪华&奢华风格、海岛风情、日式风格等等。

我们与公司的UI团队展开合作，由他们设计相应的模板，确保视频展示方式与酒店的特色相匹配，从而提升视频的整体效果。

通过这种方式，我们的平台AI能力在多方面得到了有效沉淀。

去哪儿网的业务线、算法和AI技术架构是分开的，通常采用合作的方式来完成工作，因此我们会实现各AI能力的单独扩展，由业务方自主选择并以插件形式复用所需能力。

这里包含文案处理、图片处理等多种AI能力的插件。

接下来简单讲下，AI对于多语种翻译的增强。

我们的翻译实践表明，在处理27种语言时，传统神经网络+深度学习虽然能实现基本的"信"（准确传达原意），但往往缺乏"达"（通顺）和"雅"（情感和风格）。

通过使用GPT-3.5，我们能够提升翻译质量至7到8分，效果与使用谷歌翻译差不多，如果使用GPT-4，效果还会更好。

小语种翻译尤其受益于大型语言模型，但也要注意在成本上获得平衡。

接下来说一下AI对多模态生成的加强。

在生成视频方面，我们主要尝试过Pika和Runway平台。基于Runway的Gen-2模型，通过精细调整参数并确保内容符合物理逻辑，我们能够创造出逼真的图像，例如模拟真实的海浪动态。我们注意到，如果不进行特殊控制，生成的海浪可能不符合自然现象（上图）。因此，我们在多模态生成中特别强调物理逻辑的准确性。

目前，Runway在生成效果方面表现最强，尽管它的API接口尚未完全开放。一旦开放，预计将极大促进我们的多模态生成工作。

不过，即使有了强大的工具，参数的调整仍然非常关键。

视频生成成果展示与思考

我们来看一下视频生成的成果展示。

下面这个视频是典型的简约商务酒店风格，通过左右移动，模拟用户进入房间的观看效果。（为方便展示，视频经过压缩，原视频清晰度为1080p）。

接下来同样是一个简约商务酒店，这个酒店的特点是周围的地标建筑。

在做简约商务酒店的视频时，还会进行元素定制，突出酒店的亮点、对用户度假时特别关注的问题进行强调，例如位于普吉岛的酒店是否有免费的无边泳池等。

接下来是一个日式和风酒店。

接下来，是在AI能力基础上，进行过简单的人工加工的海岛视频。

这里边有了很多特效以及动态，让观看者能感受到轻松、浪漫的气氛。

最后讲一下视频的数据结果，这是我们APP里的展现形式，默认是在目前打开详情页的位置进行播放，上线后效果相对提升6%。

总结

在AI生成视频的过程中，我们也踩过坑、积累了不少经验。比如，最开始我们会强调支持4K以提供高清体验，但考虑到实际手机端的加载情况，最终选择了1080p作为标准。

再比如，刚开始实践时，我们执着于使用旁白朗读文案。但在实际测试中发现，优美的背景音乐配合高清图片更适合高端酒店。

在动画和动态图片的运用上，图片的动态化会为吸引力加成，但是物理规律的准确性特别重要。

展望未来，我们计划在提供视频生成能力的同时，实现对高端酒店的定制化覆盖。我们将根据不同酒店的风格定制视频内容，包括风格、场景和亮点，并针对不同客群展示相应酒店视频，同时为运营团队提供快速响应市场的能力，为他们顺利与酒店达成合作助力。

目前，生成一个视频的成本大约是1.25元，时间大约在半分钟到一分钟左右，这是一个高效具备高成本效益的解决方案。

参考阅读

本文由高可用架构转载。技术原创及架构实践文章，欢迎通过公众号菜单「联系我们」进行投稿

http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=2653564148&idx=1&sn=0c50d3c36f547c8077cf9cf25984752a

高可用架构

高可用架构公众号。

最新文章

携程度假商品千亿日志系统架构演进

为超越JVM而生？深入理解Kotlin Native的梦想与可能

万字长文浅谈三高系统建设方法论和实践

Java字符串拼接技术演进及阿里巴巴的贡献

MySQL亿级数据平滑迁移实战

浅谈Elasticsearch的入门与实践

去哪儿国际酒店AI生成视频实践

B站通用详情页的打造

资金账户系统的设计

万字长文浅谈系统稳定性建设

基于Netty的自研流系统缓存实现挑战: 内存碎片与OOM困境

领域驱动设计DDD在B端营销系统的实践

vivo 互联网自研代码评审 VCR 落地实践

怎么在业务团队写好发消息的代码？

程序员必备 VS Code 插件大全！

京东自研性能追踪系统pfinder实现原理揭秘

Java ZGC 深度剖析及其在构建低延迟流系统中的实践心得

A2M人工智能创新峰会即将开幕！携手66家企业揭秘大模型标杆案例

当「软件研发」遇上 AI 大模型

请架构师入局AI，现在！立刻！马上！！

干货 | 携程数据基础平台2.0建设，多机房架构下的演进

全日程抢先看！10大分论坛 50+topic 快来pick你心仪的技术主题吧

一文详谈RAG优化方案与实践

报名 | 美团技术沙龙第82期：美团业务架构演进与实践

vivo 制品管理在 CICD 落地实践

抱歉，下半年我劝各位真的别轻易离职......

腾讯新闻推荐架构升级：2 年、 300w行代码的涅槃之旅

解密腾讯云ChatBI：智能数据分析的未来

B站稿件生产平台高可用建设分享

视频网站播放全链路压测实践之路

GIAC全球互联网架构大会参会攻略

Java线程池的实现原理及其在业务中的最佳实践

无用代码扫描组件设计

当中台过气，微服务回归单体，DDD的意义何在？

活动报名｜5月24日，腾讯云「数据管理」产品技术峰会议程公布

年薪100w！真心建议后端冲一冲新兴领域，工资高前景好

哔哩哔哩直播通用榜单系统

论文解读 - MemoryDB: 一种快速且持久的内存优先云数据库

AI时代基础架构如何演进：快手资深架构师访谈

Redis Pipelining 底层原理分析及实践

5月，一个新方向爆了，100万很稳。。。

腾讯文档收集表后台重构：改造一个巨石单体！

一次接口的性能优化之旅

使用策略模式消除冗长的if-else｜记一次smart-auto重构总结

微软、字节、阿里等大厂架构师年中聚会：2024年最新架构演进与发展趋势

一次Redis访问超时的“捉虫”之旅

代码质量与技术债系列分享之一—如何做好CodeReview

一文搞懂七种基本的GC垃圾回收算法

携程火车票异常检测和根因定位实践

大规模用户登录系统演进、便捷登录设计与实现

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉