美东时间12月6日,Meta 在 X 平台宣布推出最新开源大型语言模型 Llama-3.3-70B。
Llama 3.3 采用优化的 transformer 架构,融合了监督式微调(SFT)和基于人类反馈的强化学习(RLHF)等先进技术。支持 128K tokens的上下文长度,约等于 400 页文本。
在多个行业基准测试中,Llama-3.3-70B 的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。
虽然 Llama 3.3 只有 700亿 参数,但在性能上已与参数达到 4050亿 的 Llama 3.1 相当,而推理、部署成本却降低了很多。例如,输入成本降低了 10 倍,输出成本降低了近 5 倍。
具体来看:
在指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,Llama-3.3-70B 都超过了 Llama-3.1-405B。
在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,Llama-3.3-70B 也和 Llama-3.1-405B 比较接近。
在工具使用(BFCL)上,Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。
与前代模型相比,Llama 3.3 对硬件资源的要求大幅降低。例如,在推理过程中,Llama 3.3 的 GPU 内存需求最低仅为 4GB,而 Llama 3.1 则需高达 1944GB。这一改进不仅让中小型开发者能够负担起运行成本,也大幅减少了 AI 模型的部署复杂性。
目前 Llama 3.3 支持 8 种语言,包括英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)。
在多语言推理测试(MGSM)中的准确率达到 91.1%,充分证明了其在跨语言对话与推理任务中的优势。
对话式AI
合成数据生成
多语言处理
研究与创新应用
Llama-3.3-70B 采用了先进的后训练技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。
模型文件:huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Meta 已通过 Hugging Face、GitHub 等平台提供 Llama 3.3 的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。
12月6日,谷歌发布了新一代视觉语言模型(VLM) PaliGemma 2,并宣称该模型具有情感识别的能力。谷歌表示,PaliGemma 2 不仅能够分析图像并生成详细的图片描述,还能识别图像中人物的情感状态。
技术报告:https://arxiv.org/pdf/2412.03555
PaliGemma 2 结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。
具体来看,PaliGemma 2 基于双塔设计(Vision 和 Language 模块)的架构:
视觉模块(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。
语言模块(Language Tower):这是一个基于 Gemma 模型的解码器结构,专注于生成与输入内容相关的文本。
PaliGemma 2 引入了一个特别功能,即情感识别。这个功能允许模型生成详细且与上下文相关的图片说明,涵盖动作、情感以及整体场景的叙述。
PaliGemma 2 提供了 3B、10B 和 28B 参数的预训练版本,支持多种输入分辨率,适用于多种下游任务。
医学影像分析:自动分析和解读各种影像数据,生成医学报告。
化学与药物研发:识别和解析化学公式、分子结构。
自动化内容生成:根据图像生成描述、标题或文章。
教育与培训:提供互动式学习工具。
电商与客户服务:分析产品图像并生成描述。
智能监控与安防:实时监控安全视频,识别异常行为。
创意与艺术生成:根据图像生成艺术性的文本描述或创意内容。
PaliGemma 2 允许重新分发、商业使用、微调和创建模型衍生品。
与初代模型相比,PaliGemma 2 更为强大,支持长文本字幕生成,并且在识别乐谱、化学公式、空间推理和胸部 X 光报告生成方面表现更佳。
PaliGemma 2 与其他主流多模态模型的对比:
官网地址:https://fish.audio/zh-CN/
项目地址:https://github.com/fishaudio/fish-speech
最近,Fish Audio 发布 Fish Speech 1.5,这款全新的语音合成模型(TTS)在准确性、稳定性和跨语言能力上,取得了显著进步。
Fish Speech 1.5 不仅支持五种新增语言,还具备实时无缝对话功能,用户可以更方便地进行互动。
Fish Speech 1.5 的语音克隆功能延迟时间不到 150 毫秒。
Fish Speech 1.5 经过超过 100 万小时的多语言训练,能够生成高质量的语音合成输出,并在匿名 TTS-Arena 中获得第二名的好成绩(以「Anonymous Sparkle」身份)。
Fish Speech 1.5 主要特点:
零样本和少样本语音合成:只需 10 到 30 秒的声音样本即可生成高质量语音。
多语言 & 跨语言支持:支持多达 13 种语言,包括 英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语等,打破语言障碍!
无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。
第一个就是已上线的官网首页 fish.audio,特别多人在用。
其次是在抱抱脸(HuggingFace)上部署的简易版。