最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言模型PaliGemma 2！

文摘 2024-12-10 16:26 广东

Meta 开源 Llama3.3 专注文本生成，70B 媲美 405B 性能

美东时间12月6日，Meta 在 X 平台宣布推出最新开源大型语言模型 Llama-3.3-70B。

Llama 3.3 采用优化的 transformer 架构，融合了监督式微调（SFT）和基于人类反馈的强化学习（RLHF）等先进技术。支持 128K tokens的上下文长度，约等于 400 页文本。

在多个行业基准测试中，Llama-3.3-70B 的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro，展现出了强大的竞争力。

虽然 Llama 3.3 只有 700亿参数，但在性能上已与参数达到 4050亿的 Llama 3.1 相当，而推理、部署成本却降低了很多。例如，输入成本降低了 10 倍，输出成本降低了近 5 倍。

Llama 3.3 性能表现

具体来看：

在指令遵循（IFEval）、数学（MATH）、推理（GPQA Diamond）等领域，Llama-3.3-70B 都超过了 Llama-3.1-405B。
在语言（MMLU）、代码（HumanEval）、长文本和多语种能力上，Llama-3.3-70B 也和 Llama-3.1-405B 比较接近。
在工具使用（BFCL）上，Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。

与前代模型相比，Llama 3.3 对硬件资源的要求大幅降低。例如，在推理过程中，Llama 3.3 的 GPU 内存需求最低仅为 4GB，而 Llama 3.1 则需高达 1944GB。这一改进不仅让中小型开发者能够负担起运行成本，也大幅减少了 AI 模型的部署复杂性。

目前 Llama 3.3 支持 8 种语言，包括英文、德语、西语、葡语、义语、法语、泰文和北印度语（Hindi）。

在多语言推理测试（MGSM）中的准确率达到 91.1%，充分证明了其在跨语言对话与推理任务中的优势。

Llama 3.3 采用 128k 长上下文窗口，可处理大规模文本任务，适用于多种实际场景。

对话式AI
合成数据生成
多语言处理
研究与创新应用

Llama-3.3-70B 采用了先进的后训练技术，通过整合分组查询注意力（GQA）机制，Llama 3.3 提升了推理时的可扩展性和性能，进一步优化了模型的应用能力。

模型文件：huggingface.co/meta-llama/Llama-3.3-70B-Instruct

Meta 已通过 Hugging Face、GitHub 等平台提供 Llama 3.3 的下载，模型采用社区许可证，用户可以合法地使用、复制、分发和修改该模型及其输出。

谷歌新一代视觉语言模型PaliGemma 2，能识别人类情绪！

12月6日，谷歌发布了新一代视觉语言模型（VLM） PaliGemma 2，并宣称该模型具有情感识别的能力。谷歌表示，PaliGemma 2 不仅能够分析图像并生成详细的图片描述，还能识别图像中人物的情感状态。

技术报告：https://arxiv.org/pdf/2412.03555

PaliGemma 2 架构

PaliGemma 2 结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。

具体来看，PaliGemma 2 基于双塔设计（Vision 和 Language 模块）的架构：

视觉模块（Vision Tower）：基于 Siglip Vision Transformer，它通过将图像分割为 14×14 的小块（称为图像 patch），并为每块生成特定的嵌入（embedding），最终提取图像的整体语义。
语言模块（Language Tower）：这是一个基于 Gemma 模型的解码器结构，专注于生成与输入内容相关的文本。

PaliGemma 2 引入了一个特别功能，即情感识别。这个功能允许模型生成详细且与上下文相关的图片说明，涵盖动作、情感以及整体场景的叙述。

PaliGemma 2 提供了 3B、10B 和 28B 参数的预训练版本，支持多种输入分辨率，适用于多种下游任务。

医学影像分析：自动分析和解读各种影像数据，生成医学报告。
化学与药物研发：识别和解析化学公式、分子结构。
自动化内容生成：根据图像生成描述、标题或文章。
教育与培训：提供互动式学习工具。
电商与客户服务：分析产品图像并生成描述。
智能监控与安防：实时监控安全视频，识别异常行为。
创意与艺术生成：根据图像生成艺术性的文本描述或创意内容。

PaliGemma 2 允许重新分发、商业使用、微调和创建模型衍生品。

与初代模型相比，PaliGemma 2 更为强大，支持长文本字幕生成，并且在识别乐谱、化学公式、空间推理和胸部 X 光报告生成方面表现更佳。

PaliGemma 2 与其他主流多模态模型的对比：

Fish Audio 发布 Fish Speech 1.5 新增5种语言，将上线实时无缝对话功能

官网地址：https://fish.audio/zh-CN/
项目地址：https://github.com/fishaudio/fish-speech

最近，Fish Audio 发布 Fish Speech 1.5，这款全新的语音合成模型（TTS）在准确性、稳定性和跨语言能力上，取得了显著进步。

Fish Speech 1.5 不仅支持五种新增语言，还具备实时无缝对话功能，用户可以更方便地进行互动。

Fish Speech 1.5 的语音克隆功能延迟时间不到 150 毫秒。

Fish Speech 1.5 经过超过 100 万小时的多语言训练，能够生成高质量的语音合成输出，并在匿名 TTS-Arena 中获得第二名的好成绩（以「Anonymous Sparkle」身份）。

Fish Speech 1.5 主要特点

Fish Speech 1.5 主要特点:

零样本和少样本语音合成：只需 10 到 30 秒的声音样本即可生成高质量语音。
多语言 & 跨语言支持：支持多达 13 种语言，包括 英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语等，打破语言障碍!
无音素依赖：模型具备强大的泛化能力，不依赖音素进行 TTS，能够处理任何文字表示的语言。
高准确率：在 5 分钟的英文文本上，达到了约 2% 的 CER（字符错误率）和 WER（词错误率）。
快速：通过 fish-tech 加速，在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

第一个就是已上线的官网首页 fish.audio，特别多人在用。
其次是在抱抱脸（HuggingFace）上部署的简易版。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉