英伟达发布 80 亿参数新 AI 模型,用实际行动告诉了大家!

科技   2024-08-24 12:37   北京  

点击上方关注 “终端研发部

设为“星标”,和你一起掌握更多数据库知识        

英伟达用实际行动告诉了大家,老黄发布了这个世界上最快的Mistral-NeMo-Minitron 8B 小语言 AI 模型。

这一模型在上月发布的开源MistralNeMo12B模型基础上,进行了优化和缩减,,在此基础上英伟达再次推出更小的 Mistral-NeMo-Minitron 8B 模型,共 80 亿个参数,这种结合剪枝和蒸馏的混合技术,不仅保持了模型的精度,还显著提高了计算效率。


Mistral-NeMo-Minitron 8B究竟有那些亮点?

就其规模而言,在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务,包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。相关测试结果如下:


在测试中, 在多个基准测试中表现优于 Llama 3.1 8B 和 Gemma 7B,主要表现在

1、通过宽度修剪 Mistral NeMo 12B 创建,修剪和知识提炼是秘诀

2、成本效益:与从头开始训练相比,训练 token 减少了 40 倍

3、基础模型已在 Hugging Face 上开放获取, ️将在 NVIDIA NeMo 框架中推出

4、修剪和知识蒸馏细节

8B 模型是通过对 Mistral NeMo 12B 基础模型进行宽度剪枝,然后使用知识提炼进行轻度再训练过程获得的。

为了纠正模型训练的原始数据集上的分布偏差,他们首先使用 127B 个标记在我们的数据集上对未剪枝的 Mistral NeMo 12B 模型进行微调。

使用 3800 亿个标记(与教师微调中使用的数据集相同)进行提炼。

刚才提到,在Mistral-NeMo-Minitron 8B模型的开发过程中,英伟达结合使用了宽度剪枝和知识蒸馏技术,这也是Mistral-NeMo-Minitron 8B模型的技术优势

给大家普及一下这2种技术:

宽度剪枝

宽度剪枝是一种减少大型语言模型计算需求的结构化剪枝方法。它通过减少投影权重矩阵的大小(例如,移除注意力头)来缩小网络宽度,同时保持层数不变。

传统的剪枝方法是随机或根据特定策略移除权重矩阵中的单个元素。虽然这种方法能有效减小模型的体积,但对硬件的利用效率不高,因为它破坏了权重矩阵的结构,难以充分利用现代硬件的并行计算优势。


所以,英伟达使用了一种结构化剪枝方法,保留了权重矩阵的结构,通过移除整个神经元、注意力头或卷积滤波器等,使得剪枝后的模型仍然适合在GPU、TPU等硬件上高效运行。这样可以降低模型的内存占用和计算需求,提升模型的训练速度和推理时间,使得大模型可以在有限的资源环境中进行部署。

知识蒸馏技术

为一种先进的机器学习技术,其核心理念在于将一个复杂、庞大的模型(通常称为教师模型)的知识和经验,提炼并“灌输”给一个更小、更简单的模型(学生模型)



蒸馏的核心思想是好的模型不是为了拟合训练数据,而是学习如何泛化到新的数据,所以蒸馏到目的是为了让学生模型学习到教师模型的泛化能力

结构化权重剪枝与知识蒸馏相结合,可以从初始较大的模型中逐步获得较小的语言模型。


经过剪枝和蒸馏,英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。

80 亿参数新 AI 模型到底能有多牛批?

我这边以自动驾驶为例:

自动驾驶技术中,英伟达的AI模型可以用于处理来自车辆传感器的大量数据,包括摄像头、雷达和激光雷达。

我们都知道,自驾车需要的第三个方面是高度详细或高清的地图。为了精确地驾驶,汽车需要随时准确地知道它在哪里。根据我们的感应,汽车可以结合已知地图的知识,以厘米级的精度了解其位置。


存储在云端的地图和现实世界之间的任何差异将被传回云端,以更新高清地图。一旦我们知道我们的汽车在哪里,道路的拓扑结构是什么样的,并且跟踪场景中所有移动的物体(即汽车、卡车、行人、自行车),我们就可以计划一个安全的前进路径。自驾游管道的这一方面也包含了人工智能,因为我们可以训练神经网络来理解和预测人类行为。


英伟达的80亿参数的AI模型自我学习深度算法处理来自摄像头、雷达、激光雷达(LiDAR)等传感器的大量数据,以更高的精度识别和分类道路上的物体,如其他车辆、行人、交通标志等。


从用户体验的角度看,搭载Mistral-NeMo-Minitron8B的系统在各类操作中表现出色,高效完成大型数据集分析和复杂语言模型训练,节省时间,提升精准度。覆盖研究机构、企业应用到个人开发者需求,提供一站式解决方案,就连代码AI都可以一键帮你完成了!

AI的带来,无疑是给社会带来更加先进的生产力,聪明的人已经把像chatgpt这样的AI工具用得风生水起了,但大部分职场人还只知道埋头苦干,结果就是吃了信息闭塞的亏。

总体看下来,英伟达发布的这款 80 亿参数新 AI 模型性能很强,安全,很高效。据说,英文大要开发由生成式物理 AI  ,未又是一轮 AI 浪潮

在人工智能领域,英伟达无疑是一颗璀璨的明星!

计算机专业必读书籍:

2024年必读高质量计算机编程书籍

最后说一句(别白嫖,求关注)


回复 【idea激活】即可获得idea的激活方式

回复 【Java】获取java相关的视频教程和资料

回复 SpringCloud获取SpringCloud相关多的学习资料

回复 【python】获取全套0基础Python知识手册

回复 【2020】获取2020java相关面试题教程

回复 【加群】即可加入终端研发部相关的技术交流群

阅读更多

重磅!OpenAI正研发ChatGPT文本水印技术,其他大模型将何去何从?

2024年必读高质量计算机编程书籍

一条 SQL 引发的事故,同事直接被开除!!

太扎心!排查阿里云 ECS 的 CPU 居然达100%

一款vue编写的功能强大的swagger-ui,有点秀(附开源地址)

首位 AI 科学家问世

相信自己,没有做不到的,只有想不到的

在这里获得的不仅仅是技术!


喜欢就给个“在看

互联网科技小于哥
大家好,我是小于哥呀 1、在这里已经为1000+人,提供专业的求职/技术咨询。 2、每天持续干货输出,同时也做专业面试指AI相关的知识,多次受邀成为圆桌嘉宾; 3、每天持续分享互联网,科技,开发技术,毕设和AI相关的知识,同时也做专业面试指
 最新文章