最新开源：智谱发布GLM-4-Voice情感语音模型！Mono-InternVL模型让多模态AI逆袭！

文摘 2024-10-26 19:39 广东

NO.1

智谱开源情感语音模型 GLM-4-Voice，可表达情绪和共鸣

10 月 25 日，智谱 AI 推出端到端情感语音模型 GLM-4-Voice，能够直接理解和生成中英文语音，实现实时语音对话，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破，且延时更低，可随时打断，用户即日起可在“智谱清言”App 上体验。

代码仓库：https://github.com/THUDM/GLM-4-Voice

GLM-4-Voice 主要特点

情感表达与情感共鸣：模拟不同的情感和语调，如高兴、悲伤、生气、害怕等情绪，用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬，声音缺少起伏和细腻的变化。
语速调节：可在对话中调整语速，满足不同需求。
随时打断，灵活互动：根据实时的用户指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动。例如，你可以随时打断 TA，让 TA 输出新的内容，更加符合日常对话情境。
多语言与方言：支持中英文及多种方言，包括粤语、重庆话和北京话。
视频通话功能：即将上线，支持看与说的结合。
AutoGLM功能：具备模拟人类操作手机的能力，只需简单指令即可完成操作，无需复杂工作流。

GLM-4-Voice 由三个主要部分组成：GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder 和 GLM-4-Voice-9B，分别负责语音输入的离散化、语音输出的生成以及语音模态的预训练和对齐。

图：GLM-4-Voice 模型架构图

NO.2

上海AI Lab开源Mono-InternVL，让多模态AI逆袭，性能提升67%

近日，上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型 Mono-InternVL。与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。

论文地址：https://arxiv.org/abs/2410.08202
项目主页：https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代码&模型链接：https://huggingface.co/OpenGVLab/Mono-InternVL-2B

Mono-InternVL-2B 是一个单体多模态大语言模型（MLLM），将视觉编码和文本解码集成到一个模型中。通过 Mixture-of-Experts 机制嵌入视觉专家，冻结语言模型以优化视觉能力而不影响语言知识。引入创新的内生视觉预训练（EViP）实现从粗到细的视觉学习。与 Mini-InternVL-2B-1.5 等模型相比，Mono-InternVL-2B 在性能和部署效率上表现优异。

相比于现有多模态大模型，Mono-InternVL 有以下技术亮点：

开源原生多模态架构最优解：无需额外的视觉编码器，通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径，2B模型多模态能力优于7B参数的现有原生多模态模型，多个指标超越InternVL1.5。
兼具视觉灵活性和部署高效性：支持高达2M像素输入的动态图像分辨率，在原生多模态架构中感知精度最高。相比于InternVL1.5，在部署框架上首个单词延迟最多降低67%，整体吞吐量提高31%。

图：Mono-InternVL相比于现有多模态大模型

具体来说，Mono-InternVL 由视觉文本嵌入和多模态MoE结构两部分组成：

视觉和文本嵌入：与使用CLIP等视觉编码器的模块化 MLLM 相比，Mono-InternVL 通过patch embedding直接将图像转换为patch序列。文本嵌入模块则直接使用LLM的分词器。
多模态MoE结构：Mono-InternVL 的核心是将视觉专家FFN嵌入到预训练的 LLM 中。视觉FFN从预训练LLM中的文本FFN初始化。由此不仅可以利用预训练的 LLM 知识促进视觉预训练，还能显著缓解灾难性遗忘问题。

图：Mono-InternVL原生多模态结构

NO.3

Cohere开源Aya Expanse，能力碾压谷歌、Meta同规模模型

近日，Cohere 宣布推出两款新的开源 AI 模型，旨在通过其 Aya 项目缩小基础模型的语言差距。这两款新模型名为Aya Expanse 8B 和 35B，现已在 Hugging Face 上提供使用。

这两个模型的推出，让23种语言的 AI 性能得到了显著提升。

Cohere 在其博客中表示，8B 参数模型让全球研究人员能更轻松地获得突破，而32B 参数模型则提供了业界领先的多语言能力。

Aya 项目的目标是扩展更多非英语语言的基础模型访问。

在今年2月，Cohere 发布了 Aya101 大语言模型（LLM），这款模型涵盖了101种语言。Aya Expanse 模型在构建过程中沿用了 Aya101 的许多核心方法。

在多项基准测试中，Cohere 表示，Aya Expanse 的两个模型表现超越了 Google、Mistral 和 Meta 等公司同类规模的 AI 模型。

Aya Expanse 32B 在多语言基准测试中的表现超越了 Gemma-2 27B、Mistral 8x22B，甚至是更大的 Llama-3.1 70B。
而小型的 Aya Expanse 8B 模型同样超越了 Gemma-2 9B、Llama-3.1 8B 和 Ministral 8B，胜率从60.4% 到70.6% 不等。

参考：
https://cohere.com/blog/aya-expanse-connecting-our-world

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉