这几个 AI 网站你总能用到~

乐活   2024-10-22 21:42   北京  


工作不息摸鱼不止!又找了几个好玩的网站给大家分享~

点个赞呗


01
Emu3

目前 Emu3 已开源了关键技术和模型,

链接如下: 

Emu3 官网:https://emu.baai.ac.cn/ 

Emu3 代码:https://github.com/baaivision/Emu3 

Emu3 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f


Emu3是由北京智源研究院推出的原生多模态世界模型,旨在简化和提升多模态任务的处理能力。多模态任务指的是同时处理不同类型的数据(如图像、视频、文本等)。与依赖扩散模型(如 Stable Diffusion)或组合架构(如 CLIP 与大型语言模型结合)的传统方法不同,Emu3 采用了 next-token 预测技术,将图像、文本、视频转化为离散的 token,并使用单一的 Transformer 模型进行训练。

Emu3只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成,官方宣称实现图像、文本、视频大一统。

Emu3的功能特性

  • 图像生成:Emu3 通过预测视觉 token 来生成高质量图像,支持灵活的分辨率和风格,不再需要扩散模型,生成过程更为高效。

  • 视频生成:与依赖噪声生成视频的扩散模型不同,Emu3 通过预测视频序列中的下一个 token 来生成视频,使整个过程更加简洁高效。

  • 视频预测:Emu3 能够对视频进行延续预测,模拟现实世界中的环境、人物和动物行为,展现强大的物理世界模拟能力。

  • 视觉-语言理解:Emu3 展现了强大的视觉和语言感知能力,可以对图像进行详细描述,并提供连贯的文本回复,而无需依赖 CLIP 和预训练的大型语言模型。

  • 多模态整合:Emu3 通过将文本、图像和视频转化为离散 token,并统一使用 Transformer 进行训练,实现了多模态数据的整合。该模型能够在多个领域(图像、视频、文本)表现出色,并且可以同时处理这些不同模态的数据,适用于多模态任务。

  • 无扩散、无组合架构:Emu3 的设计抛弃了传统的扩散模型和组合架构,专注于 token 预测。这种设计使得模型在训练和推理过程中能够更高效地扩展。减少了对传统复杂架构的依赖,提高了模型的可扩展性,适用于更多任务和更大规模的数据集。

Emu3的性能评测

在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。

02
ai语气转换器
网址:https://goblin.tools/Formalizer

输入一段文字,可以借助AI将它转换为不同的语气,比如更加专业、更加具有讽刺意味、更礼貌、更热情等十几种语气。而且可以调节转换的程度,

03
上海交大等开源的超逼真声音克隆TTS


网站地址:https://github.com/SWivid/F5-TTS


F5-TTS是一款基于“流匹配(Flow Matching)”的全非自回归文本到语音(TTS)转换系统,由上海交通大学、剑桥大学和吉利汽车研究院联合开发。该系统采用先进的架构,具备零样本声音克隆、多语言合成、情感控制等功能,能够生成高度自然、流畅的语音。通过在超过10万小时的多语言数据上进行训练,F5-TTS 展现出卓越的语音生成能力,支持长文本合成、实时推理和多场景应用。

F5-TTS的功能特性

  • 零样本声音克隆:F5-TTS 具备强大的零样本声音克隆功能,通过仅15秒的音频样本即可快速克隆目标声音,无需大量数据支持,生成的语音自然流畅。

  • 多语言合成:F5-TTS 支持中英文等多语言的无缝切换,能够生成自然流畅的多语言语音输出。

  • 情感控制:该系统可以根据用户需求生成带有不同情感的语音,从愤怒到喜悦再到悲伤,使语音更加生动富有表现力。

  • 高效推理与快速生成:F5-TTS 的推理速度极快,实时因素(RTF)达到0.15,能够迅速生成高质量的语音。

  • 速度控制:F5-TTS 允许用户根据文本总时长灵活调整语音生成的速度,使其适应不同场景的需求。

  • 并行生成:与传统的逐步生成方式不同,F5-TTS 采用并行生成技术,同时处理多个步骤,从而显著加快语音生成速度。

  • 长文本合成:F5-TTS 能够处理长文本语音合成,确保生成的语音自然、连贯。它特别适合有声书、新闻播报等场景,可以连续生成高质量的语音而不影响其流畅性。

  • 大规模数据训练:F5-TTS 基于10万小时的多语言数据集进行训练,保证了其在多语言、多场景中的卓越表现,能够处理复杂的语境和语言结构。

  • 流匹配架构:F5-TTS 采用了流匹配架构,简化了复杂的生成流程,如持续时间模型和音素对齐,同时提高了语音生成的精确性和自然性。


更多资源导航

做视频网

网址:https://www.zuoshipin.com


做视频网推出的一个AI导航网站,涉及的内容还是很全面的,基本上包含了AI的一些常用场景,绘画、语音、视频、提示词等,想了解ai的摸友们可以收藏下这个导航站点,收录的网站还不错。



好了,今天的内容就到这里啦!更多资源导航点击原文~
资源整理不易,劳烦大家文末多多“分享、点赞、在看”~~

后期圈
分享后期软件素材等资源,提供免费下载方式。
 最新文章