困惑度的正确用法

文摘 2024-08-04 12:41 新加坡

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：LLM/Perplexity-test

欢迎给repo点亮Star，您的点赞是作者持续创作的动力。

困惑度（Perplexity）是评估大型语言模型（LLMs）的主要指标之一。它衡量的是模型对给定序列的预测能力。从数学上讲，困惑度是对数似然的负值的指数化平均值。在训练过程中，LLM的目标是最小化这个负对数似然，因此困惑度成为评估LLM性能的一个直观选择。需要注意的是，困惑度越低越好。

预测一个词的概率：

模型会根据前面看到的所有词来预测下一个词出现的概率。比如，你已经有了“猫在睡觉”，模型现在要预测下一个词是“。”，还是其他的词。
这个概率用 ( p_{\theta}(x_i | x_{<i}) ) 表示，就是在给定前面所有词的情况下，预测当前词的概率。

取对数（(\log)）：

直接用概率来做计算有点不方便，所以我们先把这个概率取对数（log）。对数的好处是可以把乘法变成加法，计算起来更简单。

求平均值：

我们有很多个词，所以对所有词的对数概率求和，再除以词的总数 ( t )。这样我们就得到了一个平均值。

取负值：

因为对数通常是负数，我们取它的负值，这样结果是正数。

指数化（(\exp)）：

最后一步，我们用指数函数（(\exp)）把这个负对数平均值变成困惑度。这样做的原因是把对数值转换回原始的概率尺度，这样更直观。

总结一下，这个公式的意思是：

先看看模型在每个位置上预测下一个词的能力（用概率来表示）。
把这些概率取对数后求平均值，然后取负值，再用指数函数转换回来。

最终得到的数字就是困惑度。这个数字越小，说明模型预测得越好，越不“困惑”。如果困惑度很高，说明模型对这段文字的预测很差，经常猜错。

我们可以测试同一个模型在微调前后，或者量化前后的困惑度。以此在衡量微调的效果以及量化带来的精度损失。

能否用困惑度来比较不同的LLMs？

不能

不同的分词方式：不同模型的分词器会产生不同数量的词元（tokens）。如果一个模型的分词器生成了更多的词元，那么N会更高，从而导致困惑度更低。
不同的词汇表大小：困惑度是基于整个词汇表计算的。词汇表越大，找到最可能的词的任务就越困难。例如，一个词汇表只有两个词的模型和一个有100,000个词的模型相比，后者的预测任务显然更难，但这并不意味着它的表现更差。
不同的最大上下文长度：不同模型的最大上下文长度不同，这也会影响困惑度的计算。例如，如果一个模型的上下文长度是8192个词元，而另一个模型只有4096个词元，那么前者可以在更长的序列上计算困惑度，而后者则需要通过滑动窗口等方法来近似计算。

测试代码见repo，此处不再赘述。

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663561415&idx=1&sn=2cc9f33c40e31782b8b2d1ae6a54b5ed

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉