最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言模型PaliGemma 2!

文摘   2024-12-10 16:26   广东  

01

Meta 开源 Llama3.3 专注文本生成,70B 媲美 405B 性能

美东时间12月6日,Meta 在 X 平台宣布推出最新开源大型语言模型 Llama-3.3-70B

Llama 3.3 采用优化的 transformer 架构,融合了监督式微调(SFT)和基于人类反馈的强化学习(RLHF)等先进技术。支持 128K tokens的上下文长度,约等于 400 页文本。

在多个行业基准测试中,Llama-3.3-70B 的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力

虽然 Llama 3.3 只有 700亿 参数,但在性能上已与参数达到 4050亿 的 Llama 3.1 相当,而推理、部署成本却降低了很多。例如,输入成本降低了 10 倍,输出成本降低了近 5 倍。


Llama 3.3 性能表现

具体来看:

  • 指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,Llama-3.3-70B 都超过了 Llama-3.1-405B

  • 语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,Llama-3.3-70B 也和 Llama-3.1-405B 比较接近

  • 工具使用(BFCL)上,Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。

与前代模型相比,Llama 3.3 对硬件资源的要求大幅降低。例如,在推理过程中,Llama 3.3 的 GPU 内存需求最低仅为 4GB,而 Llama 3.1 则需高达 1944GB。这一改进不仅让中小型开发者能够负担起运行成本,也大幅减少了 AI 模型的部署复杂性。

目前 Llama 3.3 支持 8 种语言,包括英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)

多语言推理测试(MGSM)中的准确率达到 91.1%,充分证明了其在跨语言对话与推理任务中的优势。

Llama 3.3 采用 128k 长上下文窗口,可处理大规模文本任务,适用于多种实际场景。
  • 对话式AI

  • 合成数据生成

  • 多语言处理

  • 研究与创新应用

Llama-3.3-70B 采用了先进的后训练技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。

  • 模型文件:huggingface.co/meta-llama/Llama-3.3-70B-Instruct

Meta 已通过 Hugging Face、GitHub 等平台提供 Llama 3.3 的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。


02

谷歌新一代视觉语言模型PaliGemma 2,能识别人类情绪!

12月6日,谷歌发布了新一代视觉语言模型(VLM) PaliGemma 2,并宣称该模型具有情感识别的能力。谷歌表示,PaliGemma 2 不仅能够分析图像并生成详细的图片描述,还能识别图像中人物的情感状态。

  • 技术报告:https://arxiv.org/pdf/2412.03555


PaliGemma 2 架构

PaliGemma 2 结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。

具体来看,PaliGemma 2 基于双塔设计(Vision 和 Language 模块)的架构:

  • 视觉模块(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。

  • 语言模块(Language Tower):这是一个基于 Gemma 模型的解码器结构,专注于生成与输入内容相关的文本。

PaliGemma 2 引入了一个特别功能,即情感识别。这个功能允许模型生成详细且与上下文相关的图片说明,涵盖动作、情感以及整体场景的叙述。

PaliGemma 2 提供了 3B、10B 和 28B 参数的预训练版本,支持多种输入分辨率,适用于多种下游任务。

  • 医学影像分析:自动分析和解读各种影像数据,生成医学报告。

  • 化学与药物研发:识别和解析化学公式、分子结构。

  • 自动化内容生成:根据图像生成描述、标题或文章。

  • 教育与培训:提供互动式学习工具。

  • 电商与客户服务:分析产品图像并生成描述。

  • 智能监控与安防:实时监控安全视频,识别异常行为。

  • 创意与艺术生成:根据图像生成艺术性的文本描述或创意内容。

PaliGemma 2 允许重新分发、商业使用、微调和创建模型衍生品。

与初代模型相比,PaliGemma 2 更为强大,支持长文本字幕生成,并且在识别乐谱、化学公式、空间推理和胸部 X 光报告生成方面表现更佳

PaliGemma 2 与其他主流多模态模型的对比:


03

Fish Audio 发布 Fish Speech 1.5 新增5种语言,将上线实时无缝对话功能

  • 官网地址:https://fish.audio/zh-CN/

  • 项目地址:https://github.com/fishaudio/fish-speech

最近,Fish Audio 发布 Fish Speech 1.5,这款全新的语音合成模型(TTS)在准确性、稳定性和跨语言能力上,取得了显著进步。

Fish Speech 1.5 不仅支持五种新增语言,还具备实时无缝对话功能,用户可以更方便地进行互动。

Fish Speech 1.5音克隆功能延迟时间不到 150 毫秒

Fish Speech 1.5 经过超过 100 万小时的多语言训练,能够生成高质量的语音合成输出,并在匿名 TTS-Arena 中获得第二名的好成绩(以「Anonymous Sparkle」身份)。


Fish Speech 1.5 主要特点

Fish Speech 1.5 主要特点:

  • 零样本和少样本语音合成:只需 10 到 30 秒的声音样本即可生成高质量语音。

  • 多语言 & 跨语言支持:支持多达 13 种语言,包括 英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语等,打破语言障碍!

  • 无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。

  • 高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。

  • 快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

  1. 第一个就是已上线的官网首页 fish.audio,特别多人在用。

  2. 其次是在抱抱脸(HuggingFace)上部署的简易版。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章