《脑与数学》
弗兰克·本福特
Frank Benford
(1883.5.29~1948.12.4)
美国物理学家、电机工程师
(图源:nigrini.com)
《脑与数学》这本书里说,本福特在大学图书馆里查对数表时,发现头几页磨损明显比最后几页更严重,于是他想到,这是不是由于小数字比大数字使用更频繁所致?他继续观察发现,包括湖泊水面标高、同事家街道门牌号、整数的平方根等等在内的各类数字,第一位数是1的概率大约为第一位数是9的6倍。
你想不想来打个赌?随便打开一本书,注意你遇到的第一个数字。如果这个数字是4、5、6、7、8或9,你赢10美元。如果是1、2或3,我赢同样的钱。大多数人都很乐意打这个赌,因为他们认为自己赢的概率是6:3。但是,此赌必输。不管你相信与否,数字1、2和3在印刷品中出现的次数大约是所有其他数字出现次数总和的两倍!
《脑与数学》
(图源:painepublishing.com)
西蒙·纽康
Simon Newcomb
(1835.3.12~1909.7.11)
加拿大裔美国天文学家、应用数学家
(图源:en.wikipedia.org)
纽康和同事们做复杂的天文计算时经常要用到对数表,工作中他发现对数表以1开头的最前面几页明显比后面那些页磨损严重——不知道《脑与数学》是不是把属于纽康的轶事错记成了本福特,抑或两人都是被磨损的对数表所启发。纽康写文章分析了这个现象,但当时没有引起人们注意。
这些数据的样本数量必须足够多,数值大小必须跨越多个数量级。
关于这条规律的真实起源我们仍然知之甚少,但有一点是肯定的,这是一个纯粹的形式定律,完全由我们的数字符号的语法结构决定。它与心理学没有半点关系,一台计算机在随机打印阿拉伯数字甚至拼写数词时都会重复这一定律。唯一的约束似乎在于,从足够平滑的分布中抽取的数字跨越了多个数量级,例如,从1到10 000。
《脑与数学》
其实很容易在身边找到数据集验证这个规律,比如随手拿起离自己最近的书籍杂志,大致估算一下其中出现的数字多少以1开头。
即使计算机随机打印阿拉伯数字或者拼写数词都会符合这一定律,但需要特别注意的是,有人为规则介入的数据不满足本福特定律,比如按照某种人为规则选定的电话号码、身份证号码、发票编号,另外彩票上的随机数据也不符合本福特定律。
有些财务欺诈导致数据偏离还是比较好理解的,例如使用假发票,如果单张发票限额为1万元,为了获得最大收益,作假者一般很少会填写1000元、2000元,自然想填写8000元、9000元以上的数额,第一位为大数的比例会大大超过寻常。
本福特定律还支持了统计学家费舍尔(Ronald Fisher)对遗传学家孟德尔(Gregor Mendel)的质疑。 费舍尔分析了孟德尔的数据,然后在1936年发表论文称,孟德尔的实验数据有伪造的嫌疑。但他并不质疑孟德尔的结论,只是指出数据好得令人难以置信。把这些数据分布的确有点偏离本福特曲线,5疑似过低而6疑似过高。
(图源:scielo.org.za)
有人将本福特定律用于鉴别JPEG图像篡改,证明同样可行。分析结果发现,只经过一次压缩的图像数据符合本福特定律,而经过二次压缩的图像数据则发生偏离。这种方法可以有效地分辨光学获得的图像和人工合成的图像。当然,这只是最基础的方法,已经有不少研究者针对数字图像的其他方面数据展开了基于本福特定律的研究。
本福德定律在检测网络DoS攻击时也特别有用,因为人为用数据淹没网络会破坏网络流量的自然性,这样的数据异常很容易被发现。
有人说,我们并不理解本福德定律存在的原因,但本福德定律理解我们。
对它还没有令人完全信服的直观解释,但有些研究者进行了自己的尝试。
简单地从小到大数数,从1数到9以后,接着重新从1开头的数字开始,而在数到下一个9开头的数字之前,必然经过一大批2、3、4、......开头的数字。也许从小到大的积累自然导致首位1的多,首位9的少。
《脑与数学》的作者法国认知神经科学家斯坦尼斯拉斯·迪昂 (Stanislas Dehaene)针对人脑的数学能力进行了大量实验研究,深度分析了包含数感、数轴等在内的心理活动,发现3以下的数量是不需要“数”(动词)就能准确认识的数量,也导致人们更重视小数字。虽然与本福特定律无关,但表现出同样的倾向。
人类语言深受这种与动物和婴儿共有的非言语数字表征的影响。我相信,仅凭这一点,就可以解释为什么词频普遍随数字增大而下降。我们之所以更频繁地表达小数字,是因为我们的心理数轴的表征精度在下降。数量越大,我们的心理表征越模糊,我们越觉得表达其精确数量的必要性很小。
《脑与数学》
书 籍 简 介
脑与数学
The Number Sense: How the Mind Creates Mathematics
作者:[法] 斯坦尼斯拉斯·迪昂 (Stanislas Dehaene) 著 周加仙 等 译
杭州:浙江教育出版社
丛书:湛庐文化·终身学习系列
ISBN: 978-7-5722-3105-6
开本:1/16
384页 379千字
2022年3月第一版
(图源:本书)
看到后面才发现本书的重点不是算术而是人脑。然后以作者最重视的数感——亦即原英文书名——等基本概念为出发点,介绍脑神经科学的研究与实验,深入到各种运算所激活的脑区、神经元。由于经常从现象入手,读者可以比较清晰地了解实验设计的逻辑线索,例如针对书中屡次出现的1、2、3与4以上数字在人的认识中的本质差别,先是从婴儿认识和不同语言中发现问题,到最后又通过脑科学的实验多方验证,提供了多方面、多层次的相关知识。
[法] 斯坦尼斯拉斯·迪昂. 脑与数学[M]. 周加仙, 译. 杭州: 浙江教育出版社, 2022.3 Iorliam Aamo, Shangbum F. Caleb. On the Use of Benford’s Law to Detect JPEG Biometric Data Tampering[J]. Journal of Information Security, 2017, Vol.8 No.3: 240-256 P. S. Kruger, V. S. S. Yadavalli. The power of one: Benford's law[J]. South African Journal of Industrial Engineering, 2017, Vol.28 No.2
Theodore P. Hill. A Statistical Derivation of theSignificant-Digit Law[J]. Statistical Science, 1995, Vol.10, No.4, 354-363 Adrien Jamain. Benford's Law[D]. London: Department of Mathematics, Imperial College of London, 2001 M. Sambridge, H. Tkalčić, A. Jackson. Benford's law in the natural sciences[EB/OL]. [2010-11-17]. https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2010GL044830
https://en.wikipedia.org/wiki/Frank_Benford; ~Benford%27s_Law; ~Simon_Newcomb
圭零 ID: g-urgling
+住无相,念无常+
号 主: 只抓住6个