知识蒸馏与深度思考 (Deepseek-R1)

文摘   科技   2025-01-30 09:42   内蒙古  
1. 引言

Deepseek-R1的发布给大语言模型市场造成了前所未有的冲击和震荡,最直接的影响是造成英伟达股票暴跌,因为Deepseek-R1显示了不需要使用太多的算力即可达到ChatGPT-4o的推理水平,运行成本仅为 OpenAI、Google 或 Meta 流行的 AI 模型的一小部分,与美国公司在 AI 技术上花费数亿或数十亿美元相比,其基本模型的计算能力仅花费了560 万美。下图所示的DeepSeek-V3技术报告的摘要。

Deepseek-R1的秘密在于使用了知识蒸馏技术,但这种技术并不是独创的和新鲜的,早在2022年年底ChatGPT发布之前,学术界就利用这种技术进行大规模的自然语言处理,现在OpenAI要追究的是Deepseek是否直接调用了ChatGPT的API作为蒸馏的原材料。事实上国内许多大语言模型厂商都直接或间接地采用了这种方法和技术,因为这是站在"巨人肩膀上"快速发展自己大语言模型的捷径。仅从技术角度来讲,采用知识蒸馏无可厚非,但麻烦在于这可能违反了OpenAI关于ChatGPT的使用条例。 

2. 知识蒸馏

知识蒸馏是一种机器学习技术,旨在将知识从一个大型复杂模型("教师"模型)转移到一个更小、更高效的模型("学生"模型),这个过程的目的是创建在保持高性能的同时资源消耗更少的模型,使其适合在计算资源有限的环境中部署。模型蒸馏过程通常包括几个关键步骤:

(1) 训练教师模型:首先,教师模型在大型数据集上进行训练,达到高准确性和性能,这个模型捕捉了数据中的复杂模式和表征,ChatGPT的基础部分作的就是这部分工作。

(2) 生成软目标:教师模型生成软目标,而不是使用二进制标签(硬目标),这些软目标是潜在输出的概率分布,提供了关于输入和输出之间关系的更丰富信息,捕捉了简单二进制标签所无法获取的细微差别。

(3) 训练学生模型:然后,学生模型使用这些软目标以及原始训练数据进行训练,其目标是最小化学生预测与教师模型预测之间的差异,有效地教会学生模拟教师在各种任务上的行为。

模型蒸馏的优点在于:

(1) 效率:蒸馏后的模型通常较小且速度更快,使其更容易部署在计算能力有限的设备上,如智能手机或边缘设备。

(2) 成本效益:通过使用一个保留了大型模型大部分性能的小型模型,组织可以降低与运行大型模型相关的运营成本。

(3) 速度:较小的模型通常在推理时具有更低的延迟,从而在聊天机器人或实时分析等应用中实现更快的响应。


模型蒸馏是机器学习中的一种重要技术,通过将知识从较大模型转移到较小模型,它使高性能应用能够跨多个领域运行,同时解决了与计算资源和部署相关的挑战。因此,从理论上来讲,采用知识蒸馏技术可以开发出类似ChatGPT的模型,甚至创建针对特定任务的小型版本,帮助创建专门化的模型。


3. 实测Deepseek-R1

以前在本地部署的是deepseek-v2 (16b, 8.9G)【GeoStudio 2024.2 新功能岩土本构模型 (Constitutive Models in FLAC3D and 3DEC) [1]】,deepseek-r1布置的是32b,这个模型的尺寸为20G,使用"Itasca IMASS本构模型"和"Bonded Block Modeling (BBM) in 3DEC"进行了测试,结果显示非常差。网页版可能使用的是671b模型,效果要好一些,但仍然比不上chatgpt-4o-latest-20241120 和 gemini-2.0-flash-thinking-exp-01-21,表明目前的Deepseek-R1缺少Itasca软件的专业数据。


计算岩土力学
2024年5月8日,《计算岩土力学》建立4周年啦!
 最新文章