豆包大模型再造爆款:抖音“AI绘本特效”播放超11亿

2024-10-17 08:04   广东  
关注我的你,是最善良的!

只为苍生说话,用笔杆子道明事态原委、丈量人间温情。






豆包大模型再造爆款





抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿。采用动态绘本的拟物玩法,“AI治愈绘本”特效首次使用了3D立体翻书的形式,巧妙地将首张用户图作为书皮呈现,玩法新颖有趣。基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。


01
抖音“AI绘本特效”播放超11亿

国庆期间,抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿,采用了动态绘本的拟物玩法,“AI治愈绘本”特效首次使用了3D立体翻书的形式,巧妙地将首张用户图作为书皮呈现,玩法新颖有趣。

基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

据了解,

“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力,技术团队通过多项自研算法,保证了模型有更好的风格响应度、画面美观度,让风格化效果更富有表现力,并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征,在“美且像”的维度上取得了良好的效果。

为呈现更好的交互方式,技术团队还使用了自研的主体抹除、扩图能力,对风格化结果图进行后处理,使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术RealCustom和 AI扩图和AI消除技术ByteEdit,两项成果分别入选CVPR2024和ECCV2024。

RealCustom是一种个性化定制技术即IP保持,对于任意开放域物体或人物 IP 均可实现无需微调的实时定制化生成,

在AI绘本中主要起到保持输入图片特征的作用。不同于以往风格化特效中用的图片特征保持方法,

RealCustom不仅能够还原图片的细节特征,还具有对图片的抽象语义理解,从而可以根据文本输入自适应地做出变化,并生成更加和谐的效果。为了更好的还原主体外观,RealCustom使用了多个层次的图片信息融合,为了让视觉信息跟文本信息能更好的融合,RealCustom 通过自适应模块学习了视觉条件与文本条件之间的对齐能力,并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理,在保证好看的风格化效果的同时,稳定的保持图片特征。

特效中用到了AI扩图和AI消除的能力,其中AI消除是指消除图像中指定的某个物体或区域,并根据周围的背景来填充消除位置的内容;AI扩图则根据指定的扩展比例来延展原图像的内容。这两个任务本质上都是根据已知图像的内容去填充周围的区域,重点在于如何让填充的内容和原图没有违和感。

为了达到这个目的,首先,技术团队增大了训练数据量级,让模型「看到」更多泛化场景,此外,ByteEdit提出了一种创新的框架,利用反馈学习来增强生成性图像编辑任务。ByteEdit通过集成图像奖励模型来提升美学质量、图像与文本的一致性,并引入密集的像素级奖励模型以增强输出的一致性,让希望填充的区域和非填充区域更加的和谐。此外,提出了一种对抗性和渐进式反馈学习策略,以加快模型的推理速度。

除此之外,“AI治愈绘本”特效可以支持用户上传多张图,在做能力部署时,技术团队针对该场景单独做了一套多服务并行逻辑以及性能加速策略,最大程度保障了在流量高峰期时,能够在最短时间内将风格化结果图、后处理结果图等顺利返回到端上。端上获取多张结果图后,技术团队依托自研的书本3D运动和阴影跟随算法,对书内各个物体的运动曲线进行参数自动化调整,在模拟书本翻页以及内页跳出的过程中,阴影效果可以随书页自然移动,更大程度保留了书页翻动的立体感与自然感,边缘的阴影过渡相对流畅。

豆包大模型是字节跳动自研的大语言模型,通过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

豆包大模型的技术细节和自研算法是如何实现AI绘本特效的?
豆包大模型是由字节跳动自研的大语言模型,通过火山引擎面向企业开放服务。该模型在多个领域展示了其强大的技术实力,包括AI绘本特效的生成。
文生图模型:豆包大模型团队升级了文生图模型,使其能够深度理解复杂的prompt,包括多主体和反现实等复杂场景。新一代模型在图文一致性和美感方面有显著提升,新版本的生成效果比当前版本提高了40%。
DiT架构:豆包视频生成模型基于DiT架构设计,能够实现多风格和多比例的一致性多镜头生成。PixelDance V1.4支持文生视频和图生视频,能够一次性生成长达10秒的精彩视频片段,并具备出色的语义理解能力。
多模态能力:豆包大模型利用文生图、语音合成等AI多模态能力,实现从一句话故事梗概到完整有声绘本的生成。
高效计算单元:豆包视频生成模型通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头效果。
豆包大模型通过这些技术细节和自研算法,实现了AI绘本特效的生成,使得相关话题播放量超过1.8亿。
抖音“AI治愈绘本”特效的用户反馈和接受度如何?
抖音的“AI治愈绘本”特效自推出以来,受到了广泛的用户关注和积极反馈。首先,这款特效通过AI技术将用户相册中的照片转化为动态绘本效果,并匹配治愈向的文字,这种新颖的玩法吸引了大量用户参与。在国庆期间,该特效更是凭借其温暖优美的画风和高还原度,吸引了数百万用户投稿,播放量超过11亿次。
用户对这款特效的评价普遍正面,许多用户表示“太还原了”、“拯救废片”、“玩上瘾了”,显示出他们对该特效的高度认可和喜爱。此外,该特效还被广泛用于制作儿童绘本,进一步提升了用户的参与度和互动性。
字节跳动豆包大模型与其他图像生成模型相比有哪些独特优势?
多模态能力:豆包大模型提供了一个多模态模型家族,包括通用模型pro、通用模型lite、语音识别等,能够适配企业多种业务场景,如语言、语音、视觉等。这种多模态能力使得豆包大模型能够灵活应对不同的业务需求,从而实现最佳效果和性价比。
高性价比:豆包大模型的定价策略极具竞争力,比行业价格低99.3%,这为行业带来了新的冲击。这种高性价比使得企业能够以更低的成本获得高质量的AI服务,从而实现模型使用及成本控制的正循环。
精准的语义理解与高保真画质:豆包大模型在视频生成方面表现出色,能够遵从复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力,提供精准的语义理解和高保真的画质。这使得豆包大模型在图像生成方面具有更高的质量和更丰富的表现力。
内部应用与商业生态:豆包大模型在字节跳动内部众多产品中得到应用,其模型能力经过长期考验,且2b客户数量一路攀升,商业生态不断完善。这表明豆包大模型在实际应用中具有较高的稳定性和可靠性,能够满足不同客户的需求。
“成为绘本里的温暖主角”话题在抖音平台上的传播策略是什么?
内容创新与互动:通过创意美术和动画教程,如使用Procreate绘画软件让绘本里的主角动起来,吸引用户参与和创作,增加互动性和趣味性。
短视频营销:利用短视频展示绘本内容,制作流程简单,容易上手,且具有较高的播放量和点赞数,同时具备出色的带货能力。例如,某出版机构编辑个人抖音账号“魔云兽”推出的3D镜面绘本视频,通过新奇有趣的视觉效果吸引大量关注。
直播带货:结合直播带货的方式,通过直播讲解绘本内容,提供线上福利或线下展览活动,增强用户黏性,并利用价格敏感度影响消费方式。
活动推广:通过举办有趣的活动形式,如“环游绘本城”活动,减轻家长选择和讲解绘本的负担,同时吸引青少年对绘本内容的兴趣。
AI技术应用:利用AI生成萌萌的图片和编写故事,结合童谣歌曲,吸引年轻用户群体,快速涨粉并实现变现。
豆包大模型在不同业务场景中的应用案例有哪些?
智能客服:豆包大模型在智能客服系统中表现出色,能够精准理解和生成语言,应对复杂的客服需求,显著提升工作效率、用户体验和服务质量。例如,容联七陌利用豆包大模型打造了更懂客户的智能客服系统,通过高效的互动对话、信息获取和协助创作等功能,提升了客户服务的智能化水平。
招聘平台:鱼泡科技作为全国领先的蓝领招聘平台,通过豆包大模型实现了岗位要求识别、工种识别和求职意向识别等功能,提升了相关业务场景的精度和效率。
内容创作与推荐:字节跳动基于豆包大模型开发了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”等工具,并将大模型接入抖音、番茄小说、飞书、巨量引擎等多个平台,显著提升了内容创作和推荐系统的智能化水平。
消费电子与游戏行业:豆包大模型在消费电子和游戏行业中注入了智能化创新动能,推动了这些行业的场景化落地与应用。
多模态生成:豆包大模型不仅推出了视频生成模型,还发布了音乐模型和同声传译模型,全面覆盖了语言、语音、图像、视频等全模态,
满足不同行业和领域的业务场景需求。

数字化转型行家
只为苍生说话,用笔杆子道明事态原委、丈量人间温情。
 最新文章