首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Llama3.2发布，你准备好一起玩了吗？

文摘科技 2024-09-26 14:33 北京

Llama中文社区

官网

https://llamafamily.cn

加入Llama Family，与技术一同进步，与社区一同前行，一起迈向AGI！

今天凌晨，Llama 3.2 多模态AI模型发布，其中包括小型和中型视觉 LLM（11B 和 90B）以及适合边缘和移动设备的轻量级纯文本模型（1B 和 3B），包括预训练和指令调整版本。

01

亮点如下

多样化模型选择：

Llama 3.2引入了小型和中型视觉大语言模型（11B和90B），以及适用于边缘和移动设备的轻量级文本模型（1B和3B），这些模型支持预训练和指令微调版本。

强大的上下文处理能力：

1B和3B模型支持高达128K的上下文长度，非常适合于本地设备上的摘要、指令跟随和重写等用例。这些模型已在Qualcomm和MediaTek硬件上优化，以支持Arm处理器。

视觉理解能力：

11B和90B视觉模型在图像理解任务中表现超越了闭源模型，如Claude 3 Haiku。

与其他开放多模态模型不同，Llama 3.2提供了可微调的预训练和对齐模型，支持开发者使用torchtune进行自定义应用，并通过torchchat进行本地部署。

02

模型细节

视觉模型

Llama 3.2的11B和90B模型支持图像推理用例，如文档级理解、图表和图形的说明，以及基于自然语言描述的视觉定位任务。这些模型能够提取图像中的细节，理解场景，并生成相应的文本描述。

轻量级模型

1B和3B模型具备强大的多语言文本生成和工具调用能力，支持开发者构建个性化的本地应用程序，确保数据隐私不离开设备。这些模型的本地运行带了瞬时响应和更高的隐私保护。

训练方法

轻量级模型是通过强大的教师模型来创建更小、更高效的模型，提升性能。Llama 3.2的1B和3B模型采用了两种方法：剪枝和蒸馏。

剪枝（Pruning）：

这是一种减少模型大小的方法。对于1B和3B模型，从Llama 3.1的8B模型中进行了一次性结构剪枝，系统性地移除网络中的部分结构，同时调整权重和梯度，确保新模型能够保留原有模型的性能。

知识蒸馏（Knowledge Distillation）：

这种方法利用较大的模型（教师模型）向较小的模型（学生模型）传递知识，使得小模型能够获得更好的表现。在Llama 3.2中，预训练阶段使用了来自Llama 3.1的8B和70B模型的输出作为目标，帮助小模型学习。

通过这两种方法，1B和3B模型变得更加高效，能够在设备上运行，同时保持优秀的性能表现。

后期训练

在后期训练中，采用与Llama 3.1相似的流程，通过多轮对齐来生成最终的聊天模型。

每一轮包括监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO），并且将上下文长度扩展到128K个token，同时保持与预训练模型相同的质量。

此外，进行合成数据生成，通过仔细的数据处理和筛选，以确保高质量数据。这些数据经过精心组合，旨在优化摘要、改写、指令跟随、语言推理和工具使用等多个能力。

模型评估

初步评估显示，Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础多模态模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。

Llama 3.2 3B 模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 相媲美。

03

体验Llama3.2

社区即将上线Llama 3.2的模型下载并且开放API供大家使用

网址：https://llamafamily.cn/chat/#/

此外还会有各类基于Llama3.2的开源应用即将上线

网址：https://llamafamily.cn/store

敬请期待...

扫码加入Llama中文社区交流群，一起玩转大模型!

注：用飞书APP扫码

Llama中文社区

https://llamafamily.cn

About

Llama中文社区是由清华大学、北京大学、同济大学、中国科学技术大学等高校及机构和AI领域技术人员共同发起的开源社区。

旨在增强Llama开源模型的中文能力和生态建设，为中文大模型研究和企业应用提供全面的支持和技术分享。Llama中文社区现已登顶“开源中国”（OSCHINA）专区第一名。

从大模型到小模型，从文本到多模态，从软件到硬件算法优化，我们期望开源能够带给全人类以AI普惠。在一个科技爆发的时代，加入Llama Family，与技术一同进步，与社区一同前行，一起迈向AGI！

社区官网：https://llamafamily.cn
GitHub：https://github.com/LlamaFamily

社区课程: https://llamafamily.cn/academy

关注公众号回复“交流”入群

Llama45

人工智能41

LLM34

创业22

Llama3.12

Llama · 目录

上一篇在线实验：训练好的模型如何评估？如何对问答进行安全过滤？

http://mp.weixin.qq.com/s?__biz=MzkyMzUyNjQyOQ==&mid=2247485797&idx=1&sn=278e25bad96bec3d815195e652071bb2

Llama中文社区

最好的中文Llama大模型

最新文章

企业行｜走进中国石化润滑油有限公司

校园行 | AI+法律，Llama中文社区走入中国政法大学

Llama3.2发布，你准备好一起玩了吗？

校园行｜ Llama中文社区携手开放原子开源基金会校园行（江南大学站）

校园行预告｜2024年9月26日中国政法大学不见不散

在线实验：训练好的模型如何评估？如何对问答进行安全过滤？

开启智慧对话，Llama中文社区全新论坛上线！

WAIC 2024“开源赋能开发者:开源大模型技术实践及产业应用”论坛圆满落幕

直播倒计时！WAIC 2024，我们来了！

2024世界人工智能大会，Llama中文社区主办开源大模型论坛等你来!

【线下活动】共创AI未来：大模型训练技能分享

你可以超方便地在线微调和部署Llama3了！社区算力平台上线

【活动预告】与Llama中文社区一同走进西北工业大学

社区版Llama3中文微调模型重磅发布！Llama3-Chinese-8B-Instruct快来体验！

【活动预告】您有一份来自厦门的邀请函请查收～

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉