手把手教你打造虚拟AI Talker

文摘科技 2024-08-27 06:36 江苏

引言

作为一名人工智能爱好者，最近几周，有一个趋势不容错过，那就是人工智能生成的有影响力人物的虚拟讲话视频。它们看起来如此逼真，真是令人难以置信。

我们不妨来看个例子：

坦白地讲，在这些视频中，不可思议感觉仍然很强烈。它们给人的感觉有点过于人工化，但与此同时，大家也无法否认人工智能在过去几个月里取得了长足的进步。

从 Ted Talk 的照片开始，人们开始进一步挑战极限，使用 Runway Gen-3 Turbo 和 Kling AI 等人工智能工具将图像转化为视频。为了增加最后的真实感，他们使用 RenderNet AI 加入了一些人工智能生成的配音和唇语同步，让这些数字人物栩栩如生。

在本文中，我将推荐大家使用四种人工智能工具，完成创建自己的会说话的人工智能演讲者。闲话少说，我们直接开始吧！

生成图像

第一步是生成人工智能演讲者的逼真人物肖像。大家可以使用任何图像生成器，但如果你想获得一流的逼真度，我推荐大家使用 Midjourney 或 Flux。

下面是使用 Midjourney 生成的图像示例：

Prompt: A cinematic photography, medium shot, glamour instagram latina woman. She has brown hair with purple highlights. glamour woman. She has a pretty face, She is sitting in a coffee in bar. An influencer, smiling face, with hand gestures as if she’s explaining something

提示：一个电影摄影、中景拍摄、魅力十足的 Instagram 拉丁裔女性。她的头发是棕色的，带有紫色的亮点。她面容姣好，坐在酒吧的咖啡厅里。一位有影响力的人物，面带微笑，手势好像在解释什么。

下面是生成的图片，如下：

选择一个自己最喜欢的，如下所示：

大家可以根据提示词进行操作，尽可能多地生成图片，直到选择出你喜欢的完美的照片。

图像增强

在这一步中，我将使用 Freepik 图像升频器。该工具由 Magnific AI 提供支持，因此可以保证效果会非常棒。

网址：https://magnific.ai/

页面展示如下：

这是最终结果：

我喜欢该工具为皮肤和头发增加纹理细节的效果，使整个图像更加细腻逼真。这种差别很微妙，但在追求额外的真实感时，就会产生天壤之别。

另一种方法是通过 RenderNet AI 的 TrueTouch 功能来放大图像。只需进入 RenderNet AI 面板，选择 TrueTouch 功能并上传原始图像即可。

网址：https://app.rendernet.ai/

页面如下：

它的功能同样强大，而且在增强图像的程度方面提供了更多的自定义功能。处理后的最终结果如下：

仔细观察，这张图片的细节更加饱满，皮肤纹理更清晰，眼睛也更真实。

图像生成视频

接着就是将我们上面创建的肖像图像转换为逼真的视频。为此，我们需要借助 Runway Gen-3、Kling AI、Vidu 或 Luma 的 Dream Machine 等人工智能视频生成工具。

如果大家不想为高级服务付费，最好的免费替代品就是 Kling AI。Kling 每天提供 66 个视频生成点数，足够创建至少 5 个 5 秒钟的视频片段

访问 Kling AI 网站并创建账户。进入人工智能视频页面，在 "参考图像 "选项卡上传我们的图像。如下：

添加以下描述，辅助引导人工智能了解我们需要什么样的视频。

Prompt: A woman smiling as she talks, use his hands as she talks, blinking eyes many times, looking at the viewer

提示：女人边说边笑，边说边用手，多次眨眼，看着观众

大家可以随心所欲地编写提示词。请记住，处理时间会因队列中还有多少其他免费用户而变化。现在，可能需要几分钟到几个小时不等。所以，请做好等待的准备。这是最终的视频效果：

此外，大家也还可以使用 Runway 的 Gen-3 Turbo 将图像转化为视频。现在，他们免费提供 300 个生成点数。

生成的效果如下：

真棒她看起来很有活力。她脸上的表情看起来她似乎在热情地分享某些成功的秘诀，看起来真的超真实！但问题是：她到底在说什么？这就需要下一步了--添加旁白，并将她的嘴唇与旁白同步。

生成旁白

现在我们已经有了视频，是时候让大家的人工智能演讲者发出声音了。为此，大家可以使用任何免费的人工智能聊天机器人，如 OpenAI 的 ChatGPT、Google 的 Gemini 或 Anthropic 的 Claude AI。

这里有一个简单的开始提示：

Prompt: Write a single paragraph script for a 10-second video clip
of an influencer sharing about her secret in going viral.

提示：为一段 10 秒钟的视频短片写一段旁白，视频短片中，一位有影响力的人分享了她的虚拟视频病毒式传播的秘诀。

它短小精悍、直奔主题--非常适合作为快速而有影响力的剪辑对白。

添加声音

现在到了最后一步--为人工智能演讲者添加声音，并将她的嘴唇与旁白同步。为此，我们使用了 RenderNet AI 的 Narrator 功能。

要开始使用，请登录您的 RenderNet AI 账户，然后前往 "Narrator"页面。上传我们之前生成的视频，然后按照提示操作。

注：视频必须为 MP4 格式，最大分辨率为 2560x2560 像素，最大帧频为 60 fps。

如果你想换一张主角的脸，大家也可以进行选择，但在这种情况下，我们还是要坚持我们生成的女主角。

单击 "下一步 "按钮，设置语音和旁白（使用我们在上一步生成的旁白）：

选择语音时，确保选择与人工智能角色相匹配的语音。在这个例子中，我发现Rachel的声音非常适合我们的人工智能演讲者。

最后，点击 "生成 "按钮，等待过程结束。我们将被带入 RenderNet Studio，在这里可以根据需要对视频进行微调。

满意后，下载最终结果。就是这样--一段完全唇语同步、会说话的人工智能演讲者视频。

太酷了我对它的效果感到非常惊讶。我知道这并不完美，但这项技术发展到如此地步，实在是太疯狂了。我刚刚在不到一个小时的时间里制作了我们自己的人工智能演讲者的视频，这太疯狂了！

总结

总之，我在做这个实验时很开心，对最终结果也很满意。一个人利用各种人工智能工具在短短几分钟内就能创造出这样的成果，实在令人惊叹。

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247491372&idx=1&sn=aede1f2084ae4ff7f0bfd826d84f2da4

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

Fine-Tuning vs. Zero-Shot vs. Few-Shot Learning

RAG Fusion -- 新一代信息检索技术

【Python】关于Python Itertools 后悔没有早点了解的九个函数

【Python】都2024了，还不会用dataclass，你Out了？

自回归模型的关键：Causal self-Attention

机器学习中的Teacher Forcing

一文弄懂Bert模型

【Python】七个提升Python代码性能的技巧

一文学会LLM参数量计算

Transformer为什么使用LayerNorm而不是BatchNorm?

BatchNorm VS LayerNorm

掌握LLaMA: 深入探索MetaAI的革命性模型

一文弄懂Grouped-Query Attention

一文弄懂Multi-Query Attention

手撕Transformer之组合各组件

手撕Transformer之The Decoder

手撕Transformer之The Encoder

手撕Transformer之Layer Normalization

手撕Transformer之Feed-Forward Network

手撕Transformer之Multi-Head Attention

一文弄懂Flash-Attention

手撕Transformer之Positional Encoding

手撕Transformer之Embedding Layer

掌握Transformer之KV Cahce

NLP领域中BeluScore直观解释

掌握Transformer之注意力为什么有效

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉