Hi~ 欢迎来到7.24XiaoHu.AI的日报!
______________
1、LensGo AI 推出了一个名为 FaceSync 的新功能。
用户可以录制自己的表演视频,然后选择一张图片或视频,FaceSync 能够将你的表演与这些图像或视频同步,使其栩栩如生。
也就是说,FaceSync 能够将你的形象转移到目标图像或者视频,同时保持你的声音和口型姿态同步,让你可以以任何形象来表演。
目前该功能还在测试中。
2、NeuralGCM:Google开发的天气预测模拟系统
NeuralGCM 是由 Google 开发的一种新型的基于 AI 和物理的气象和气候建模系统,达到了前所未有的准确性。与仅大气 AMIP 模型相比,气候模拟误差减少了多达 3 倍。该研究已经发表在《自然》杂志上,NeuralGCM 将传统的大气环流模型(GCMs)和机器学习方法结合在一起,全部使用 JAX 编写,以支持可微分优化和 GPU/TPU 上的高性能模拟。
该模型的效率远高于现有模型,显著提升了天气预报,并大大减少了气候模拟误差。比目前的最先进模型在相似或更高精度下高出 3 到 5 个数量级的计算效率。它还提供了极端天气事件(如热带气旋)的逼真模拟。在40年的气候模拟中,NeuralGCM准确再现了全球变暖趋势。
NeuralGCM 是开源的,邀请进一步的科学合作。
具体应用
短期天气预报: 提供从几小时到几天的高精度天气预测。 中期天气预报: 提供长达15天的天气预测,准确度接近最先进的物理模型和其他机器学习模型。 气候模拟:NeuralGCM能够进行长时间的气候模拟,预测未来几年的气候变化趋势。
🔗 详细:https://xiaohu.ai/p/11622
3、迪斯尼公布BD-X双足机器人图纸和技术方法
迪斯尼发表了一篇论文详细介绍了其新型的双足机器人BD-X的主要设计和控制方法。
BD-X设计的主要目的是为了在娱乐表演中使用。该机器人不仅能在复杂地形上移动,还能执行非常逼真的艺术化动作,比如舞蹈或表演。
🔗 详细介绍:https://xiaohu.ai/p/11638
4、Vozo:AI视频生成器 重写你的视频
Vozo Rewrite & Redub 是一款创新的视频编辑工具,通过简单的提示即可重写视频脚本,然后这个工具会自动给视频重新配音、翻译语音并进行口型同步,生成新的视频。
无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。
具体应用
视频重写与重新配音:使用AI提示重写脚本,并使用克隆的声音进行重新配音。 文本编辑语音:通过编辑文本更新解说,不需要重新录音。 多角色口型同步:视频中的多角色自然口型同步。 视频翻译:将视频专业翻译成30多种语言和方言。 自动视频重新利用:一键裁剪、重构和调整视频比例,以适应不同的社交平台。
使用场景
视频创作者:将经典片段转变为新的病毒式传播视频。 广告公司:修改脚本,重新配音,并口型同步广告,创建针对不同受众的无尽变体。 营销人员和电商:将产品视频翻译成多种语言,轻松扩大全球影响力。 教育者:通过编辑文本和克隆配音轻松修改教育视频,以适应任何语言或语调。
🔗 详细介绍:https://xiaohu.ai/p/11653
5、腾讯的PhotoMaker开源项目更新:
PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法!
无需训练,只需要几张照片就能克隆你的关键特征,然后生成你在各种场景、各种风格和各种状态的照片。
PhotoMaker 通过堆叠 ID 嵌入来生成逼真的人像照片。可以在几秒钟内完成个性化定制,无需额外的 LoRA 训练。该方法可以根据文本提示,生成符合描述的高质量人像图片,同时保持人物身份的特征。
通俗易懂来说就是它利用多个输入图片来创建一个统一的ID嵌入表示,这些嵌入向量包含了人物的各种特征(如面部特征、发型、表情等)。
然后利用这个ID表示来生成图像,从而保持人物特征的一致性。该方法不仅速度快、质量高,还可以根据文字描述生成定制化的照片。
主要功能:
生成逼真照片: 根据文字描述生成个性化逼真人物照片。 风格化: 可以对照片进行各种风格的处理。 身份变换: 改变照片中人物的年龄和性别。 身份混合: 将多个人物的特征融合生成新的人物形象。
🔗 详细介绍:https://xiaohu.ai/p/11665
6、Llama 3.1 发布
Llama 3.1 发布包含 8B、70B 和 405B 版本,性能媲美 GPT-4 等闭源模型。
Meta发布了新的Llama 3.1模型,包括期待已久的405B。 这些模型具有改进的推理能力、128K token上下文窗口,并支持8种语言。 Llama 3.1405B在多项任务上与领先的闭源模型竞争。 工具使用能力,支持搜索和Wolfram Alpha的数学推理,模型能够集成和使用多种工具,支持在零样本条件下进行工具调用和操作。 通过组合方法可以将图像、视频和语音功能整合到模型中 训练405B模型使用了超过16K的NVIDIA H100 GPU,历时数月。 Llama 3.18B和70B模型在性能和安全性上优于前代。 更新的许可证允许使用Llama模型的输出改进其他模型。
🔗 详细内容:https://xiaohu.ai/p/11686
______________
点赞,关注关注关注!
你也可以直接通过xiaohu.ai直接访问小互的网站