怎样验证各平台618销量是否造假?

科技   2024-06-18 14:00   上海  

很多情况下,我们会认为在一堆数据中,以 1 为首位的数字出现的概率为 1/9。

但是,实际情况却有些差异,这就是因为存在本福特定律。

本福特定律,也称为本福特法则,在一堆从实际生活得出的数据中,以 1 为首位的数字出现概率约为总数的 3 成,接近直觉得出的期望值 1/9 的 3 倍。

通俗得说,就是越大的数,以它为首的数出现的概率就越低。

在 b 进位制中,以 n 为首位的数字出现的机率为 logb(n + 1) − logb(n)。

下表就是在十进制首位数字的出现机率(其中 d 为首位的数字,p 为出现的概率):

d

p

1

30.1%

2

17.6%

3

12.5%

4

9.7%

5

7.9%

6

6.7%

7

5.8%

8

5.1%

9

4.6%

那么实际工作生活中,哪些数据真的满足本福特定律呢?

场景一:MySQL的表数据量

比如MySQL的表数据量,如果表足够多,那也是满足本福特定律的。

我们可以尝试让某款AI工具生成SQL语句,来判断表数据量是否满足这个定律。

提示词:

通过一条SQL语句,判断MySQL表数据量是否满足本福特定律,查询的是information_schema.tables,TABLE_ROWS是每张表的行数,增加显示概率。


生成的SQL语句如下:

SELECT       LEFT(CAST(TABLE_ROWS AS CHAR), 1) AS first_digit,      COUNT(*) AS frequency,      CONCAT(ROUND((COUNT(*) / (SELECT COUNT(*) FROM information_schema.tables WHERE TABLE_TYPE = 'BASE TABLE' AND TABLE_ROWS > 9) * 100), 2), '%') AS probability  FROM       information_schema.tables  WHERE       TABLE_TYPE = 'BASE TABLE' AND TABLE_ROWS > 9 -- 忽略行数小于10的表  GROUP BY       first_digit  ORDER BY       first_digit;

我自己测试,发现几个实例基本满足本福特定律,只是概率稍微有点偏差,大家也可以尝试一下。


场景二:财务数据

2001年,美国最大能源交易商安然公司突然宣布破产,并同时传出其可能存在财务造假的消息。

为了验证这个传闻,有人使用了本福特定律来分析安然公司公布的财务报表。

对比结果显示,在左侧的图表中,财务数据与本福特定律高度吻合。

然而,观察右侧的图表,可以发现安然公司在2000-2001年的财务数据与本福特定律存在显著的偏差。

特别是数字1、8、9的出现频率远高于本福特定律的预测,而数字2、3、4、5、7的出现频率又明显低于预期。

这一发现为安然公司可能存在财务造假行为提供了有力的证据。


场景三:商品销量

如果朋友们觉得某些网站的销量数据造假,就可以试试,统计各种商品的销量,看是否满足本福特定律。


当然,生活中,一定还有很多场景满足本福特定律,这里就不一一细讲了。

MySQL数据库联盟
关注后,回复“高可用”,可获取8篇MySQL高可用文章
 最新文章