豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

2024-10-17 08:04 广东

关注我的你，是最善良的！

只为苍生说话，用笔杆子道明事态原委、丈量人间温情。

豆包大模型再造爆款

抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿。采用动态绘本的拟物玩法，“AI治愈绘本”特效首次使用了3D立体翻书的形式，巧妙地将首张用户图作为书皮呈现，玩法新颖有趣。基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

抖音“AI绘本特效”播放超11亿

国庆期间，抖音上一款名为“AI治愈绘本”的特效凭借温暖优美的画风和高还原度吸引了数百万用户投稿，采用了动态绘本的拟物玩法，“AI治愈绘本”特效首次使用了3D立体翻书的形式，巧妙地将首张用户图作为书皮呈现，玩法新颖有趣。

基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

据了解，

“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力，技术团队通过多项自研算法，保证了模型有更好的风格响应度、画面美观度，让风格化效果更富有表现力，并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征，在“美且像”的维度上取得了良好的效果。

为呈现更好的交互方式，技术团队还使用了自研的主体抹除、扩图能力，对风格化结果图进行后处理，使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术RealCustom和 AI扩图和AI消除技术ByteEdit，两项成果分别入选CVPR2024和ECCV2024。

RealCustom是一种个性化定制技术即IP保持，对于任意开放域物体或人物 IP 均可实现无需微调的实时定制化生成，

在AI绘本中主要起到保持输入图片特征的作用。不同于以往风格化特效中用的图片特征保持方法，

RealCustom不仅能够还原图片的细节特征，还具有对图片的抽象语义理解，从而可以根据文本输入自适应地做出变化，并生成更加和谐的效果。为了更好的还原主体外观，RealCustom使用了多个层次的图片信息融合，为了让视觉信息跟文本信息能更好的融合，RealCustom 通过自适应模块学习了视觉条件与文本条件之间的对齐能力，并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理，在保证好看的风格化效果的同时，稳定的保持图片特征。

特效中用到了AI扩图和AI消除的能力，其中AI消除是指消除图像中指定的某个物体或区域，并根据周围的背景来填充消除位置的内容；AI扩图则根据指定的扩展比例来延展原图像的内容。这两个任务本质上都是根据已知图像的内容去填充周围的区域，重点在于如何让填充的内容和原图没有违和感。

为了达到这个目的，首先，技术团队增大了训练数据量级，让模型「看到」更多泛化场景，此外，ByteEdit提出了一种创新的框架，利用反馈学习来增强生成性图像编辑任务。ByteEdit通过集成图像奖励模型来提升美学质量、图像与文本的一致性，并引入密集的像素级奖励模型以增强输出的一致性，让希望填充的区域和非填充区域更加的和谐。此外，提出了一种对抗性和渐进式反馈学习策略，以加快模型的推理速度。

除此之外，“AI治愈绘本”特效可以支持用户上传多张图，在做能力部署时，技术团队针对该场景单独做了一套多服务并行逻辑以及性能加速策略，最大程度保障了在流量高峰期时，能够在最短时间内将风格化结果图、后处理结果图等顺利返回到端上。端上获取多张结果图后，技术团队依托自研的书本3D运动和阴影跟随算法，对书内各个物体的运动曲线进行参数自动化调整，在模拟书本翻页以及内页跳出的过程中，阴影效果可以随书页自然移动，更大程度保留了书页翻动的立体感与自然感，边缘的阴影过渡相对流畅。

豆包大模型是字节跳动自研的大语言模型，通过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态，全方位满足不同行业和领域的业务场景需求。

豆包大模型的技术细节和自研算法是如何实现AI绘本特效的？

豆包大模型是由字节跳动自研的大语言模型，通过火山引擎面向企业开放服务。该模型在多个领域展示了其强大的技术实力，包括AI绘本特效的生成。

文生图模型：豆包大模型团队升级了文生图模型，使其能够深度理解复杂的prompt，包括多主体和反现实等复杂场景。新一代模型在图文一致性和美感方面有显著提升，新版本的生成效果比当前版本提高了40%。

DiT架构：豆包视频生成模型基于DiT架构设计，能够实现多风格和多比例的一致性多镜头生成。PixelDance V1.4支持文生视频和图生视频，能够一次性生成长达10秒的精彩视频片段，并具备出色的语义理解能力。

多模态能力：豆包大模型利用文生图、语音合成等AI多模态能力，实现从一句话故事梗概到完整有声绘本的生成。

高效计算单元：豆包视频生成模型通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头效果。

豆包大模型通过这些技术细节和自研算法，实现了AI绘本特效的生成，使得相关话题播放量超过1.8亿。

抖音“AI治愈绘本”特效的用户反馈和接受度如何？

抖音的“AI治愈绘本”特效自推出以来，受到了广泛的用户关注和积极反馈。首先，这款特效通过AI技术将用户相册中的照片转化为动态绘本效果，并匹配治愈向的文字，这种新颖的玩法吸引了大量用户参与。在国庆期间，该特效更是凭借其温暖优美的画风和高还原度，吸引了数百万用户投稿，播放量超过11亿次。

用户对这款特效的评价普遍正面，许多用户表示“太还原了”、“拯救废片”、“玩上瘾了”，显示出他们对该特效的高度认可和喜爱。此外，该特效还被广泛用于制作儿童绘本，进一步提升了用户的参与度和互动性。

字节跳动豆包大模型与其他图像生成模型相比有哪些独特优势？

多模态能力：豆包大模型提供了一个多模态模型家族，包括通用模型pro、通用模型lite、语音识别等，能够适配企业多种业务场景，如语言、语音、视觉等。这种多模态能力使得豆包大模型能够灵活应对不同的业务需求，从而实现最佳效果和性价比。

高性价比：豆包大模型的定价策略极具竞争力，比行业价格低99.3%，这为行业带来了新的冲击。这种高性价比使得企业能够以更低的成本获得高质量的AI服务，从而实现模型使用及成本控制的正循环。

精准的语义理解与高保真画质：豆包大模型在视频生成方面表现出色，能够遵从复杂prompt，解锁时序性多拍动作指令与多个主体间的交互能力，提供精准的语义理解和高保真的画质。这使得豆包大模型在图像生成方面具有更高的质量和更丰富的表现力。

内部应用与商业生态：豆包大模型在字节跳动内部众多产品中得到应用，其模型能力经过长期考验，且2b客户数量一路攀升，商业生态不断完善。这表明豆包大模型在实际应用中具有较高的稳定性和可靠性，能够满足不同客户的需求。

“成为绘本里的温暖主角”话题在抖音平台上的传播策略是什么？

内容创新与互动：通过创意美术和动画教程，如使用Procreate绘画软件让绘本里的主角动起来，吸引用户参与和创作，增加互动性和趣味性。

短视频营销：利用短视频展示绘本内容，制作流程简单，容易上手，且具有较高的播放量和点赞数，同时具备出色的带货能力。例如，某出版机构编辑个人抖音账号“魔云兽”推出的3D镜面绘本视频，通过新奇有趣的视觉效果吸引大量关注。

直播带货：结合直播带货的方式，通过直播讲解绘本内容，提供线上福利或线下展览活动，增强用户黏性，并利用价格敏感度影响消费方式。

活动推广：通过举办有趣的活动形式，如“环游绘本城”活动，减轻家长选择和讲解绘本的负担，同时吸引青少年对绘本内容的兴趣。

AI技术应用：利用AI生成萌萌的图片和编写故事，结合童谣歌曲，吸引年轻用户群体，快速涨粉并实现变现。

豆包大模型在不同业务场景中的应用案例有哪些？

智能客服：豆包大模型在智能客服系统中表现出色，能够精准理解和生成语言，应对复杂的客服需求，显著提升工作效率、用户体验和服务质量。例如，容联七陌利用豆包大模型打造了更懂客户的智能客服系统，通过高效的互动对话、信息获取和协助创作等功能，提升了客户服务的智能化水平。

招聘平台：鱼泡科技作为全国领先的蓝领招聘平台，通过豆包大模型实现了岗位要求识别、工种识别和求职意向识别等功能，提升了相关业务场景的精度和效率。

内容创作与推荐：字节跳动基于豆包大模型开发了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”等工具，并将大模型接入抖音、番茄小说、飞书、巨量引擎等多个平台，显著提升了内容创作和推荐系统的智能化水平。

消费电子与游戏行业：豆包大模型在消费电子和游戏行业中注入了智能化创新动能，推动了这些行业的场景化落地与应用。

多模态生成：豆包大模型不仅推出了视频生成模型，还发布了音乐模型和同声传译模型，全面覆盖了语言、语音、图像、视频等全模态，

满足不同行业和领域的业务场景需求。

http://mp.weixin.qq.com/s?__biz=MzI4MDk0MTA2Mg==&mid=2247526005&idx=1&sn=f07454e1951ad48b4968f041834fccf7

数字化转型行家

只为苍生说话，用笔杆子道明事态原委、丈量人间温情。

最新文章

拍照最好的手机有哪些？这几款公认值得买！

红米K70至尊版和红米K70Pro哪个好？差200元我们应该怎么选？

33年前，美国曾做过一个实验，将4男4女关一起两年，结果怎样?

手机关机后、拔掉SIM卡后、卸掉电池后，可以查找手机定位吗？

全球两大石油带，在哪？中国都完美错过

很多超市明明没生意，为何却没倒闭？其实背后还有不为人知的收入

禁用谷歌有多明智？谷歌可以威胁世界95%的国家，但唯独没有中国

油车换成电车3年后才知道油车和电车的差别，都是真心话！

原来微信里有个认字功能，比查字典好用还方便，不会用太浪费了

2024年最佳蓝牙耳机推荐

您的银行卡是借记卡还是储蓄卡？两者的区别是什么？借记卡好还是储蓄卡好？

iPhone录音的真正打开方式，敲两下手机就开始录音，隐秘还方便！

拼多多不建议购买的10种商品！很多人都已经中招，看完涨知识！

手机型号的含义，这一篇写太全了，看看你踩坑了吗？

香港生活成本有多高？真实数据来了...

苹果蓝牙耳机AirPods Pro 不为人知的使用技巧和秘密！

原来手机里删除的照片都保存在这里，点一下立马就能恢复，很实用

2024最值得入手的手机，几乎“无短板”，怎么选都很香

"铁命令”已下达，三大运营商宣布彻底整改，将取消套餐服务！

随身WiFi的几个大坑，一定要看看

1983年，北京一男子买12瓶茅台花96元，如今变卖能买北京一套楼吗？

买车前，先把这些账算清楚！

美国现在有多少华人？数据终于统计出来了，让很多国人不敢相信

原来通过手机号码，就能找到对方的位置!这都不知手机白买

为什么没有鸟敢在故宫上拉屎?这真不是迷信，而是有科学依据的!

拍照最好的手机有哪些？这几款公认值得买！

钢筋混凝土建成的高楼为何能着火？有一种致命的材料，不得不使用！

1977年河北男子睡梦中三次飞千里，醒后身处南京，44年后真相大白

中国移动最早号码段进入“升值期”？138、139号段很值钱，你有吗？

南水北调没必要了吗？中国地下水查明：北方占95%，南方仅5%

55米厚的煤层开采长达118年，中国第一露天煤矿，如今成啥样了？

强基计划、综合评价、高校专项有何异同?哪种更适合考生报考？

大脑为啥要删除3岁前的记忆？你小时候到底看见了啥？科学家表示是大脑故意而为之！

2024年最佳蓝牙耳机推荐

机场安全员提醒：这三样东西可以带上飞机，好多人不懂偷偷扔掉了

原来微信里有个认字功能，比查字典好用还方便，不会用太浪费了

油车换成电车3年后才知道油车和电车的差别，都是真心话！

禁用谷歌有多明智？谷歌可以威胁世界95%的国家，但唯独没有中国

人类是被圈禁在地球的？宇航员DNA发生突变，宇宙才是人类的家？

“9键”和“26键”，哪种打字更快？

首批新能源车换电池，22万维修单惊呆车主!

“大流量卡”都是骗人的！套路多，到底能有多坑？为什么你买的流量卡总是被骗？

荣耀100pro与荣耀200pro选谁更合适？分析后就知道

华为Mate70Pro果然豪横：麒麟9100+无孔真全屏，这才叫王炸！

原来微信转账可以直接转到银行卡，简单实用，值得收藏！

手机号被拉黑了，对方还能收到打的电话和发送的短信吗?

华为WATCH GT3 Pro与华为WATCH GT4详细评测对比及购买建议！

原来手机里删除的照片都保存在这里，点一下立马就能恢复，很实用

同样售价，华为Pura 70Pro和Mate 60Pro怎么选？

不登微信也能看你的聊天记录！90%的人不知道

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉