本福特定律(Benford’s Law)

文摘   科学   2024-05-20 17:28   山东  
《脑与数学》读后
从任意本质上平滑分布的数字场中抽取若干随机数,数字第一位是1的频率远大于第一位是9。这个奇异的现象被称为本福特定律。

《脑与数学》

弗兰克·本福特

Frank Benford

(1883.5.29~1948.12.4)

美国物理学家、电机工程师

(图源:nigrini.com)

《脑与数学》这本书里说,本福特在大学图书馆里查对数表时,发现头几页磨损明显比最后几页更严重,于是他想到,这是不是由于小数字比大数字使用更频繁所致?他继续观察发现,包括湖泊水面标高、同事家街道门牌号、整数的平方根等等在内的各类数字,第一位数是1的概率大约为第一位数是9的6倍。

你想不想来打个赌?随便打开一本书,注意你遇到的第一个数字。如果这个数字是4、5、6、7、8或9,你赢10美元。如果是1、2或3,我赢同样的钱。大多数人都很乐意打这个赌,因为他们认为自己赢的概率是6:3。但是,此赌必输。不管你相信与否,数字1、2和3在印刷品中出现的次数大约是所有其他数字出现次数总和的两倍!

《脑与数学》

在现实生活里的许多数字集合中,大约30%的数字第一位是1,而第一位是2的数字接近18%,数字越大出现在第一位的比例越低,9只占不到5%。
本福特在1938年的一篇论文里提到了这个规律,于是它便被称为“本福特定律”(Benford’s Law)。

(图源:painepublishing.com)

本福特定律可以简单地由一个对数公式表示:
P(d) = log10(1 + 1/d)
式中P为一个数字第一位是n的概率。


事实上第一个发现这个规律的并不是本福特,而是天文学家西蒙·纽康,他早在1881年就对此有过陈述。

西蒙·纽康

Simon Newcomb

(1835.3.12~1909.7.11)

加拿大裔美国天文学家、应用数学家

(图源:en.wikipedia.org)

纽康和同事们做复杂的天文计算时经常要用到对数表,工作中他发现对数表以1开头的最前面几页明显比后面那些页磨损严重——不知道《脑与数学》是不是把属于纽康的轶事错记成了本福特,抑或两人都是被磨损的对数表所启发纽康写文章分析了这个现象,但当时没有引起人们注意。

50多年后本福特再次提起这一规律,并且做了针对性研究,他对来自20个领域的数据进行了相应统计,证实了本福特定律的可靠性。
(图源:xueqiu.com)

这些数据的样本数量必须足够多,数值大小必须跨越多个数量级。

关于这条规律的真实起源我们仍然知之甚少,但有一点是肯定的,这是一个纯粹的形式定律,完全由我们的数字符号的语法结构决定。它与心理学没有半点关系,一台计算机在随机打印阿拉伯数字甚至拼写数词时都会重复这一定律。唯一的约束似乎在于,从足够平滑的分布中抽取的数字跨越了多个数量级,例如,从1到10 000。

《脑与数学》

其实很容易在身边找到数据集验证这个规律,比如随手拿起离自己最近的书籍杂志,大致估算一下其中出现的数字多少以1开头。

即使计算机随机打印阿拉伯数字或者拼写数词都会符合这一定律,但需要特别注意的是,人为规则介入的数据不满足本福特定律,比如按照某种人为规则选定的电话号码、身份证号码、发票编号,另外彩票上的随机数据也不符合本福特定律。

(图源:phys.org)
针对本福特定律的这一特点,人们常用它来辨别数据造假。
一个最著名的例子就是安然公司(Enron)造假案。2001年,美国安然公司宣布破产,传闻公司高层管理人员有做假账嫌疑。通过财务数据首位数分析,发现它们果然明显不符合本福特定律。
安然公司2000年财务数据显著偏离本福特曲线
(图源:analyticsvidhya.com)
美国华盛顿州一个金额高达1亿美元的投资诈骗案,也是因为一位会计师分析了与支票和汇款有关的数据,发现首位数数量分布不符合本福特定律,才引起了人们警觉

有些财务欺诈导致数据偏离还是比较好理解的,例如使用假发票,如果单张发票限额为1万元,为了获得最大收益,作假者一般很少会填写1000元、2000元,自然想填写8000元、9000元以上的数额,第一位为大数的比例会大大超过寻常。

而下面这张2020年美国总统大选选票分析就比较有趣了。

(图源:parler.com)

本福特定律还支持了统计学家费舍尔(Ronald Fisher)对遗传学家孟德尔(Gregor Mendel)的质疑。 费舍尔分析了孟德尔的数据,然后在1936年发表论文称,孟德尔的实验数据有伪造的嫌疑。但他并不质疑孟德尔的结论,只是指出数据好得令人难以置信。把这些数据分布的确有点偏离本福特曲线,5疑似过低而6疑似过高。

(图源:scielo.org.za)

有人将本福特定律用于鉴别JPEG图像篡改,证明同样可行。分析结果发现,只经过一次压缩的图像数据符合本福特定律,而经过二次压缩的图像数据则发生偏离。这种方法可以有效地分辨光学获得的图像和人工合成的图像。当然,这只是最基础的方法,已经有不少研究者针对数字图像的其他方面数据展开了基于本福特定律的研究。

二次压缩的图像数据明显偏离本福特曲线
(图源:scirp.org)

本福德定律在检测网络DoS攻击时也特别有用,因为人为用数据淹没网络会破坏网络流量的自然性,这样的数据异常很容易被发现。

本福特定律还具有尺度不变性,即对于同一个符合定律数据集,即便换一套单位制,或乘以一个常数,本福特定律仍然成立。


有人说,我们并不理解本福德定律存在的原因,但本福德定律理解我们。

对它还没有令人完全信服的直观解释,但有些研究者进行了自己的尝试。

简单地从小到大数数,从1数到9以后,接着重新从1开头的数字开始,而在数到下一个9开头的数字之前,必然经过一大批2、3、4、......开头的数字。也许从小到大的积累自然导致首位1的多,首位9的少。

《脑与数学》的作者法国认知神经科学家斯坦尼斯拉斯·迪昂 (Stanislas Dehaene)针对人脑的数学能力进行了大量实验研究,深度分析了包含数感、数轴等在内的心理活动,发现3以下的数量是不需要“数”(动词)就能准确认识的数量,也导致人们更重视小数字。虽然与本福特定律无关,但表现出同样的倾向。

人类语言深受这种与动物和婴儿共有的非言语数字表征的影响。我相信,仅凭这一点,就可以解释为什么词频普遍随数字增大而下降。我们之所以更频繁地表达小数字,是因为我们的心理数轴的表征精度在下降。数量越大,我们的心理表征越模糊,我们越觉得表达其精确数量的必要性很小。

《脑与数学》

统计显示,几乎所有的语言中,数字越大出现的频率越低,约整数10、12、15、20、50、100的出现频率局部增大
(图源:《脑与数学》
在各种语言的词频表里,数字出现的频率都是随着数字增大而稳定降低。以法语为例,“1”(un)约每70个词出现一次,“2”(deux)约每600个词出现一次,“3”(trois)约每1700个词出现一次......。
人们在语言中表现出的对小数字的偏好尚可找到背后的逻辑,但本福特定律面向的随机数据集(第一位数)也偏好小数字,就不是那么容易解释的了,但仍可以半知半解地使用它。


书 籍 简 介

脑与数学

The Number Sense: How the Mind Creates Mathematics

作者:[法] 斯坦尼斯拉斯·迪昂 (Stanislas Dehaene) 著   周加仙 等 译

杭州:浙江教育出版社

丛书:湛庐文化·终身学习系列

ISBN: 978-7-5722-3105-6

开本:1/16

384页 379千字

2022年3月第一版

(图源:本书)

译者后记里称本书为“数学教育神经科学领域最出色的书籍”,幸所言非虚。它既专注又全面,具有高度专业性,但文字却不艰深晦涩。
看前面一半读者会以为是数学科普,开头在不超过初等数学难度下介绍了关于计算的科学常识, 关注的对象从动物到人类婴儿,细致剖析运算所涉及的各种知觉、认识。亦考察了环境因素的作用,以及不同文化造成的计算能力差异, 例如由于数字表达方式不同,英国人的数字记忆广度平均只有7个,而中国人则有9个。

看到后面才发现本书的重点不是算术而是人脑。然后以作者最重视的数感——亦即原英文书名——等基本概念为出发点,介绍脑神经科学的研究与实验,深入到各种运算所激活的脑区、神经元。由于经常从现象入手,读者可以比较清晰地了解实验设计的逻辑线索,例如针对书中屡次出现的1、2、3与4以上数字在人的认识中的本质差别,先是从婴儿认识和不同语言中发现问题,到最后又通过脑科学的实验多方验证,提供了多方面、多层次的相关知识。

References:
  1. [法] 斯坦尼斯拉斯·迪昂. 脑与数学[M]. 周加仙, 译. 杭州: 浙江教育出版社, 2022.3
  2. Iorliam Aamo, Shangbum F. Caleb. On the Use of Benford’s Law to Detect JPEG Biometric Data Tampering[J]. Journal of Information Security, 2017, Vol.8 No.3: 240-256
  3. P. S. Kruger, V. S. S. Yadavalli. The power of one: Benford's law[J]. South African Journal of Industrial Engineering, 2017, Vol.28 No.2

  4. Theodore P. Hill. A Statistical Derivation of theSignificant-Digit Law[J]. Statistical Science, 1995, Vol.10, No.4, 354-363
  5. Adrien Jamain. Benford's Law[D]. London: Department of Mathematics, Imperial College of London, 2001
  6. M. Sambridge, H. Tkalčić, A. Jackson. Benford's law in the natural sciences[EB/OL]. [2010-11-17]. https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2010GL044830

  7. https://en.wikipedia.org/wiki/Frank_Benford; ~Benford%27s_Law; ~Simon_Newcomb


圭零  ID: g-urgling

+住无相,念无常+

号 主: 只抓住6个

圭零
+住无相,念无常+-+-+号主:只抓住6个+-+-+面向全人类,传播无用信息,不看不影响生活+
 最新文章