10 月 25 日,智谱 AI 推出端到端情感语音模型 GLM-4-Voice,能够直接理解和生成中英文语音,实现实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断,用户即日起可在“智谱清言”App 上体验。
情感表达与情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。
语速调节:可在对话中调整语速,满足不同需求。
随时打断,灵活互动:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。
多语言与方言:支持中英文及多种方言,包括粤语、重庆话和北京话。
视频通话功能:即将上线,支持看与说的结合。
AutoGLM功能:具备模拟人类操作手机的能力,只需简单指令即可完成操作,无需复杂工作流。
图:GLM-4-Voice 模型架构图
近日,上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型 Mono-InternVL。与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。
论文地址:https://arxiv.org/abs/2410.08202
项目主页:https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代码&模型链接:https://huggingface.co/OpenGVLab/Mono-InternVL-2B
Mono-InternVL-2B 是一个单体多模态大语言模型(MLLM),将视觉编码和文本解码集成到一个模型中。通过 Mixture-of-Experts 机制嵌入视觉专家,冻结语言模型以优化视觉能力而不影响语言知识。引入创新的内生视觉预训练(EViP)实现从粗到细的视觉学习。与 Mini-InternVL-2B-1.5 等模型相比,Mono-InternVL-2B 在性能和部署效率上表现优异。
相比于现有多模态大模型,Mono-InternVL 有以下技术亮点:
开源原生多模态架构最优解:无需额外的视觉编码器,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径,2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越InternVL1.5。
兼具视觉灵活性和部署高效性:支持高达2M像素输入的动态图像分辨率,在原生多模态架构中感知精度最高。相比于InternVL1.5,在部署框架上首个单词延迟最多降低67%,整体吞吐量提高31%。
图:Mono-InternVL相比于现有多模态大模型
具体来说,Mono-InternVL 由视觉文本嵌入和多模态MoE结构两部分组成:
视觉和文本嵌入:与使用CLIP等视觉编码器的模块化 MLLM 相比,Mono-InternVL 通过patch embedding直接将图像转换为patch序列。文本嵌入模块则直接使用LLM的分词器。
多模态MoE结构:Mono-InternVL 的核心是将视觉专家FFN嵌入到预训练的 LLM 中。视觉FFN从预训练LLM中的文本FFN初始化。由此不仅可以利用预训练的 LLM 知识促进视觉预训练,还能显著缓解灾难性遗忘问题。
图:Mono-InternVL原生多模态结构
近日,Cohere 宣布推出两款新的开源 AI 模型,旨在通过其 Aya 项目缩小基础模型的语言差距。这两款新模型名为Aya Expanse 8B 和 35B,现已在 Hugging Face 上提供使用。
Cohere 在其博客中表示,8B 参数模型让全球研究人员能更轻松地获得突破,而32B 参数模型则提供了业界领先的多语言能力。
Aya 项目的目标是扩展更多非英语语言的基础模型访问。
在今年2月,Cohere 发布了 Aya101 大语言模型(LLM),这款模型涵盖了101种语言。Aya Expanse 模型在构建过程中沿用了 Aya101 的许多核心方法。
在多项基准测试中,Cohere 表示,Aya Expanse 的两个模型表现超越了 Google、Mistral 和 Meta 等公司同类规模的 AI 模型。
Aya Expanse 32B 在多语言基准测试中的表现超越了 Gemma-2 27B、Mistral 8x22B,甚至是更大的 Llama-3.1 70B。
而小型的 Aya Expanse 8B 模型同样超越了 Gemma-2 9B、Llama-3.1 8B 和 Ministral 8B,胜率从60.4% 到70.6% 不等。
参考:
https://cohere.com/blog/aya-expanse-connecting-our-world