要重视基础数据

旅行   2024-11-14 19:44   上海  

写这篇短文是顺着《不存在什么团结牢美》讲的。我昨天说过,经常有人喜欢写一些看起来耸人听闻的数据。比如什么川普在黑人男性得票增长xxx%这类。这些数据,基本也是真的,定性你也不能说不对,但是实践中就经常误导你。


举个例子,北卡根据出口民调,黑人里川子的得票率大概是12%,上届是5%,那你说是上届的240%对不对?是对的。增长140%对不对?也是对的。但是你如果只强调240%和140%,就很容易误导人。


再比如川子横扫摇摆州是事实,普选票也赢了是事实,可是普选票得票50.5%你看几个人提过?哈子是惨败不假,但是普选票也超过48%。既然你们喜欢拿数据说明问题,当然不能不提这些数据。


我的经验是:要重视基础数据。对于所谓的高阶数据,要提高警惕。


经常看NBA的都知道,在某人带领下,如今流行各种数据刷子,高阶数据非常好看,但是如果你真的看球的话,你就有种感觉,就是这个人并没有数据体现的那么强。但要你说他菜,好像又总觉得依据不足,底气不够。


类似的还有足球,比如说吧,就有人喜欢在国家队的友谊赛还有对鱼腩的正式比赛重拳出击,一场刷n个进球。你说是不是A级赛事呢也是,但是大赛碰到狠角色就不太灵,软脚虾。可你看他什么总进球数啊,进球率啊都不错。


其实这是可以解释清楚的,那就是口径问题。


高阶数据相对于基础数据,是需要加工的。举个例子,最常见的数据是EFF(Efficiency:出场效率),计算公式如下:


EFF = (PTS + TREB + AST + STL + BLK) - (FGA - FGM) - (FTA - FTM) - TO

这数据的意思是,实际上就是把五大数据:得分、篮板、助攻、抢断、盖帽全部相加,再剪掉投篮不进和罚球不进,最后减掉失误。五大传统数据是正项数值,而投篮不进、罚球不进和失误是负项数值。

那么这个数据名义上可以体现球员的出场贡献。但是这类数据bug太多。我举个例子,你投中一球,数据+2,这意味着你如果投中1个两分球,可以瞎投两次,数据才会归0。而对职业球员来说,命中率想低于33%还是很难的。那就意味着,一旦你进了一球你就非常有动机继续多出手,因为多出手,EFF就更高。但显然你不该出手的时候强行出手,你的表现是,而不是数据体现的好。

但口径怎么选,是谁选,你看见高阶数据时候一般是不知道的,也不会去细想的。那么就容易被误导了。

如果再往深处想,其实这些高阶数据,本质上类似于加定语


啥意思呢?就是你只要定语加的足够多,你永远可以是对的。


比如你身高180+一个男的,身高肯定不错,但肯定不会算很高的。那么没关系,说你在你们小区是不是高的?肯定不是,小区人多呢。那说在你们楼道是不是最高的?难说。没事,可以说和你这个年龄,且在国企上班,且没有离婚的男的是不是最高的?那就是了。比你高的要么在民企上班,要么在国企但是离婚了,好容易有个国企上班没离婚的,比你大几岁,那这么算一定就是你最高么。


这不是说高阶数据就没有用。其实很早就有所谓的数据可视化概念,迎合了很多人觉得数据太复杂太杂乱,想直接看结论,至少直接看个图表的想法。但是这些年,这个领域进展一般,最重要的问题还是:你得先自己搞清楚,才能形成方法论,然后教给别人。


但问题是,鼓捣这些的人,真的搞得清楚这玩意吗?比如民调数据的解读,你就要懂政治,懂历史,懂地理,然后还得懂数学。你光懂数据处理,懂编程,是解读不好民调数据的。可是你如果懂政治历史,并不需要复杂的高阶数据,看一些基础数据,结合你固有的知识,就足够搞清楚问题了,不需要强行雕花。


所以我觉得,此路不通,要分析问题,直接多查证,多交叉比对,用基础数据就足够搞清楚了。如果你搞不清楚,也没关系,你就看见任何高阶数据就保持警惕就对了。


(完)


404文章获取: 首先是去下面的自留地、酒馆找。 一般来说同日会转载。如果也没了,是去下面的独立网站找。 如都没有就不必强求,下次请早。 请勿点菜 ! 和正文无关的内容不要问我怎么看,看法就是你眼瞎。



个人网站:zlsdcg.com


(即“周老师的茶馆”的拼音)。直接把“zlsdcg.com”粘贴到浏览器地址栏即可。


微博(注意加v的才是真的):


主号周老师的茶馆


备用号周老师的自留地


(请直接点击上面的小程序或者把下面网址复制到系统浏览器,或者直接在微博app搜索)


https://weibo.com/zhoulaoshidechaguan


https://weibo.com/zhoulaoshideziliudi  



备用公众号1:



备用公众号2:



视频号:



头条号:



更多交流,请关注觅圈( 孤苑白首二十年已经完本,共221章正文+9外篇,近50万字; 试读请点击《 孤苑白首二十年(1) 》; 副教主倒灶系列已经更新至683章正文+253外篇 ,逾150万字。 试读请点击《试读链接 )。 另外 JM 系列评论文章801篇,逾100万字。


如想继续阅读后文,可加入下图微密圈。但请加之前务必阅读《觅圈说明》。请注意一定要读完,不要冲动消费。




周先生的茶馆四代目
微博:周老师的茶馆