小互AI日报:将你的表演同步到任意视频和图像、利用AI重写任何视频、几张照片就能克隆你自己、Google推出天气预测模拟系统…

文摘   2024-07-25 00:47   浙江  

 Hi~ 欢迎来到7.24XiaoHu.AI的日报!


______________

1、LensGo AI 推出了一个名为 FaceSync 的新功能

用户可以录制自己的表演视频,然后选择一张图片或视频,FaceSync 能够将你的表演与这些图像或视频同步,使其栩栩如生。

也就是说,FaceSync 能够将你的形象转移到目标图像或者视频,同时保持你的声音和口型姿态同步,让你可以以任何形象来表演。

目前该功能还在测试中。

2、NeuralGCM:Google开发的天气预测模拟系统

NeuralGCM 是由 Google 开发的一种新型的基于 AI 和物理的气象和气候建模系统,达到了前所未有的准确性。与仅大气 AMIP 模型相比,气候模拟误差减少了多达 3 倍。该研究已经发表在《自然》杂志上,NeuralGCM 将传统的大气环流模型(GCMs)和机器学习方法结合在一起,全部使用 JAX 编写,以支持可微分优化和 GPU/TPU 上的高性能模拟。

该模型的效率远高于现有模型,显著提升了天气预报,并大大减少了气候模拟误差。比目前的最先进模型在相似或更高精度下高出 3 到 5 个数量级的计算效率。它还提供了极端天气事件(如热带气旋)的逼真模拟。在40年的气候模拟中,NeuralGCM准确再现了全球变暖趋势。

NeuralGCM 是开源的,邀请进一步的科学合作。

具体应用

  • 短期天气预报: 提供从几小时到几天的高精度天气预测。
  • 中期天气预报: 提供长达15天的天气预测,准确度接近最先进的物理模型和其他机器学习模型。
  • 气候模拟:NeuralGCM能够进行长时间的气候模拟,预测未来几年的气候变化趋势。

🔗 详细:https://xiaohu.ai/p/11622

3、迪斯尼公布BD-X双足机器人图纸和技术方法

迪斯尼发表了一篇论文详细介绍了其新型的双足机器人BD-X的主要设计和控制方法。

BD-X设计的主要目的是为了在娱乐表演中使用。该机器人不仅能在复杂地形上移动,还能执行非常逼真的艺术化动作,比如舞蹈或表演。

🔗 详细介绍:https://xiaohu.ai/p/11638

4、Vozo:AI视频生成器 重写你的视频

Vozo Rewrite & Redub 是一款创新的视频编辑工具,通过简单的提示即可重写视频脚本,然后这个工具会自动给视频重新配音、翻译语音并进行口型同步,生成新的视频。

无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。

具体应用

  • 视频重写与重新配音:使用AI提示重写脚本,并使用克隆的声音进行重新配音。
  • 文本编辑语音:通过编辑文本更新解说,不需要重新录音。
  • 多角色口型同步:视频中的多角色自然口型同步。
  • 视频翻译:将视频专业翻译成30多种语言和方言。
  • 自动视频重新利用:一键裁剪、重构和调整视频比例,以适应不同的社交平台。

使用场景

  • 视频创作者:将经典片段转变为新的病毒式传播视频。
  • 广告公司:修改脚本,重新配音,并口型同步广告,创建针对不同受众的无尽变体。
  • 营销人员和电商:将产品视频翻译成多种语言,轻松扩大全球影响力。
  • 教育者:通过编辑文本和克隆配音轻松修改教育视频,以适应任何语言或语调。

🔗 详细介绍:https://xiaohu.ai/p/11653

5、腾讯的PhotoMaker开源项目更新

PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法!

无需训练,只需要几张照片就能克隆你的关键特征,然后生成你在各种场景、各种风格和各种状态的照片。

PhotoMaker 通过堆叠 ID 嵌入来生成逼真的人像照片。可以在几秒钟内完成个性化定制,无需额外的 LoRA 训练。该方法可以根据文本提示,生成符合描述的高质量人像图片,同时保持人物身份的特征。

通俗易懂来说就是它利用多个输入图片来创建一个统一的ID嵌入表示,这些嵌入向量包含了人物的各种特征(如面部特征、发型、表情等)。

然后利用这个ID表示来生成图像,从而保持人物特征的一致性。该方法不仅速度快、质量高,还可以根据文字描述生成定制化的照片。

主要功能:

  • 生成逼真照片: 根据文字描述生成个性化逼真人物照片。
  • 风格化: 可以对照片进行各种风格的处理。
  • 身份变换: 改变照片中人物的年龄和性别。
  • 身份混合: 将多个人物的特征融合生成新的人物形象。

🔗 详细介绍:https://xiaohu.ai/p/11665

6、Llama 3.1 发布

Llama 3.1 发布包含 8B、70B 和 405B 版本,性能媲美 GPT-4 等闭源模型。

  1. Meta发布了新的Llama 3.1模型,包括期待已久的405B。
  2. 这些模型具有改进的推理能力、128K token上下文窗口,并支持8种语言。
  3. Llama 3.1405B在多项任务上与领先的闭源模型竞争。
  4. 工具使用能力,支持搜索和Wolfram Alpha的数学推理,模型能够集成和使用多种工具,支持在零样本条件下进行工具调用和操作。
  5. 通过组合方法可以将图像、视频和语音功能整合到模型中
  6. 训练405B模型使用了超过16K的NVIDIA H100 GPU,历时数月。
  7. Llama 3.18B和70B模型在性能和安全性上优于前代。
  8. 更新的许可证允许使用Llama模型的输出改进其他模型。

🔗 详细内容:https://xiaohu.ai/p/11686



______________

End.


感  阅
谢  读

点赞,关注关注关注!

你也可以直接通过xiaohu.ai直接访问小互的网站



通往AGI之路
WaytoAGI.com,让每个人的AI学习过程少走弯路,让更多的人因AI而强大。
 最新文章