今日开源(2024-10-25):智谱开源GLM-4-Voice,支持中英文以及中国方言语音,模拟有情感语调的实时语音对话

文摘   2024-10-25 18:23   北京  


🏆基座模型

①项目:GLM-4-Voice

GLM-4-Voice 是智谱 AI 推出的端到端语音模型,能够直接理解和生成中英文语音,实现实时语音对话。该模型支持根据用户指令改变语音的情感、语调、语速和方言等属性。GLM-4-Voice 由三个主要部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder 和 GLM-4-Voice-9B,分别负责语音输入的离散化、语音输出的生成以及语音模态的预训练和对齐。

☆一键收藏:

https://sota.jiqizhixin.com/project/glm-4-voice


②项目:Aya Expanse

Aya Expanse 32B 是一个具有高度先进多语言能力的开源研究模型。它结合了高性能的预训练命令系列模型和 Cohere For AI 一年的专注研究成果,包括数据套利、多语言偏好训练、安全调优和模型合并。该模型支持23种语言,旨在为多语言大语言模型提供强大的支持。

☆一键收藏:

https://sota.jiqizhixin.com/project/aya-expanse


③项目:Mono-InternVL

Mono-InternVL-2B 是一个单体多模态大语言模型(MLLM),将视觉编码和文本解码集成到一个模型中。通过 Mixture-of-Experts 机制嵌入视觉专家,冻结语言模型以优化视觉能力而不影响语言知识。引入创新的内生视觉预训练(EViP)实现从粗到细的视觉学习。与 Mini-InternVL-2B-1.5 等模型相比,Mono-InternVL-2B 在性能和部署效率上表现优异。

☆一键收藏:

https://sota.jiqizhixin.com/project/mono-internvl


🤖 Agent开发

①项目:KaibanJS

KaibanJS 是一个 JavaScript 原生框架,旨在通过看板方法来构建和管理多智能体系统。它帮助用户创建、可视化和管理 AI 智能体、任务、工具和团队,支持无缝的 AI 工作流编排和实时工作流可视化。用户可以通过 KaibanJS 实时跟踪任务进度,并在 AI 项目中更有效地协作。

☆一键收藏:

https://sota.jiqizhixin.com/project/kaibanjs


②项目:Agent-0

Agent-0项目是一个概念验证项目,旨在复制OpenAI新发布的O1模型的推理能力。O1模型通过思维链提示和强化学习来反思其解决方案,通过迭代推理来改进响应。该项目使用Gemini API或任何具有函数调用能力的模型,通过顺序agent系统提出解决方案并在每个阶段使用思维链和反思技术进行迭代优化。

☆一键收藏:

https://sota.jiqizhixin.com/project/agent-0


🛠️框架平台、必备工具

①项目:FakeShield

FakeShield是一个多模态框架,旨在通过多模态大语言模型实现可解释的图像伪造检测和定位。FakeShield能够评估图像真实性,生成被篡改区域的掩码,并基于像素级和图像级的篡改线索提供判断依据。项目通过GPT-4o增强现有的IFDL数据集,并引入领域标签引导的解释性伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),以实现详细文本描述指导下的伪造定位。

☆一键收藏:

https://sota.jiqizhixin.com/project/fakeshield


②项目:Parrot-TTS

★Parrot-TTS 是一个文本转语音(TTS)系统,利用基于 Transformer 的序列到序列模型将字符标记映射到 HuBERT 量化单元,并使用改进的 HiFi-GAN 声码器进行语音合成。该项目提供了安装说明、演示执行和在您自己的数据上训练 TTS 模型的指南。

☆一键收藏:

https://sota.jiqizhixin.com/project/parrot-tts



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章