AI模型知识蒸馏

文摘 2024-09-22 09:29 新加坡

https://github.com/xinyuwei-david/david-share.git下的：Deep-Learning/

Knowledge-Distillation，本文中不再赘述代码实现。欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

知识蒸馏是一种机器学习技术，通过将知识从一个更大、更复杂的模型（通常称为“教师”模型）转移到一个更小、更简单的模型（称为“学生”模型）。这个过程使学生模型能够在性能上接近教师模型，同时更加高效，所需的计算资源更少。

以下是知识蒸馏的工作原理：

教师模型训练：一个大型且通常复杂的神经网络在数据集上进行训练。由于其规模和复杂性，这个模型可以达到高精度，但通常需要高计算成本。
学生模型训练：学生模型较小且不那么复杂，不仅要预测原始标签，还要模仿教师模型的一些行为。这可能包括匹配教师模型的输出概率（软目标）或中间特征表示。
损失函数：学生训练期间的损失函数通常包括两个部分：

测量学生预测与实际标签之间差异的部分（硬目标）。
测量学生和教师模型输出之间某种形式差异（如KL散度）的部分。这有助于学生模型近似教师模型的行为。

优势：尽管较小，蒸馏后的学生模型通常保留了教师模型的大部分准确性。这使其适合在资源受限的环境中部署，如移动设备或嵌入式系统。

应用：知识蒸馏已在多个领域中使用，包括计算机视觉、自然语言处理和语音识别。它在将复杂模型部署到计算能力、内存或能耗有限的环境中尤为宝贵。

总体而言，知识蒸馏是一种有价值的机器学习技术，可以在不显著牺牲性能的情况下提高模型的效率。

概念和方法

知识蒸馏涉及双模型架构：“教师”是一个具有高预测能力的大型深度网络，“学生”是一个较小、较不复杂的网络。其基本思想是将教师的“知识”转移给学生。这种知识转移不仅仅是复制输出，还包括教学生模仿教师模型的内部处理。

该过程从训练教师模型以达到最佳性能开始。一旦教师模型训练完成，学生模型从原始训练数据和教师模型生成的输出中学习。这些输出通常称为“软目标”，提供了比复杂标签更丰富的信息，因为它们包含了教师模型所见数据分布的见解。

学生的训练涉及一个定制的损失函数，通常包括两个部分：一个是衡量学生对实际标签的准确性，另一个是量化学生和教师输出之间的相似性，通常使用如Kullback-Leibler散度的度量。

优势

首先，它允许在计算资源、内存或功率有限的环境中部署高性能模型。例如，从强大网络蒸馏出的较小模型可以部署在移动设备、物联网设备或边缘计算中。

此外，蒸馏模型可以提供更快的推理时间和更低的能耗，这对于实时应用和电池寿命有限的设备至关重要。此外，蒸馏有助于模型简化，使得在保持接近复杂教师模型性能的同时，更容易理解和修改学生网络。

实际应用

知识蒸馏在AI的各个领域中得到了广泛应用：

计算机视觉：在图像分类和目标检测等任务中，蒸馏模型在保持准确性的同时，显著更快且更轻，适合移动应用或自主设备。
自然语言处理：对于语言模型，蒸馏有助于在手持设备上部署高效模型，从而在无需持续服务器通信的情况下，提供更好的用户体验。
语音识别：蒸馏使得在智能手机和智能家居设备上部署强大的语音识别系统成为可能，确保隐私和离线功能。

挑战和考虑

尽管知识蒸馏非常有益，但也存在挑战。教师-学生架构的选择、损失函数中的平衡以及其他超参数（如软化概率的温度）的调整对于蒸馏的成功至关重要。如果在这些方面出现失误，可能导致学生模型性能不佳或未能充分学习教师模型。

此外，学生模型可能会过拟合教师模型的输出，可能继承教师模型中的偏差或错误。实践者必须确保进行稳健的验证，并可能整合正则化和数据增强等技术，以有效地使学生模型泛化。

剪枝、蒸馏与量化

蒸馏代码实现见github，结果如下：

更多AI知识，欢迎关注：

参考：https://medium.com/codex/distilling-wisdom-harnessing-knowledge-distillation-networks-for-efficient-ai-in-9e55f2442443

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561903&idx=1&sn=909b241279ff7bc18d8a6afd88631b6e

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

纯CPU跑Llama3.2+LoRA Adapter

在CPU上高效使用GGUF格式的LoRA Adapter

校准数据集对模型量化的影响

让LLM来裁定LLM

记一次成功的小模型coding微调

深入理解 1-Bit LLMs：从 BitNet 到神经网络的本质

文生视频-Mochi 1

4o-realtime构建客服系统-Chainlit

4o-realtime API调用分析

微软OmniParser项目

MS-UFO论文读书笔记

智能体时代-微软UFO

端到端的GPT微调实践: 基于Personas的数据合成

GPT-4o-Realtime应用场景

此量化(我的)非彼(英伟达的)量化

金庸全集: Voice-RAG

Llama-Omni的验证-LLM多模态系列1

AI训练中优化器的选择

Flux1的验证

PyTorch LoRA SFT后转化成ONNX Runtime进行推理

ColPali实现视觉RAG

解密vLLM推理快的原因

微调STT模型Whisper

训练中的梯度检查点（Gradient Checkpointing）

用GTP-4o实现Reasoning CoT

训练/微调工具大比拼

惊艳! GPT-4o Audio

剪枝与蒸馏的最佳实践

AI训练中的优化器

AI中的混合精度（AMP）

Pixtral与Phi-3.5-Vision

AI模型知识蒸馏

LLM推理性能测试与优化工具-第二篇

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉