是的!“仁者见仁、智者见智”才是真正的“赋予数据灵魂”

文摘   2024-10-09 16:25   湖南  

图片由ChatGPT根据文章内容自动生成

刚才看到IPIP的老高针对之前的我们一篇报告发表一些他的看法:《赋予数据灵魂?有关网络空间数据如何解读的个人看法~》 恰好我今天也在整理之前发表在其他公众号上的一些老文章转移到“黑哥虾撩”上,在《谈谈网络空间测绘在国家级断电断网事件上的应用》  文章里:

「数据挖掘分析是一个“仁者见仁、智者见智”的事情,取决于实施者的对数据的认知、理解、思维视角及层次,而最终得到不同的知识结论。对于网络空间测绘来说,我们希望能看到更多不一样的不同境界不同视角的实践者获取到更多不同的数据知识,而目前看到的网络空间测绘领域更多的是某些单一、乏味的视角,这些在我看来都不算是真正的测绘,形成不了更多高层次的知识及智慧,那更谈不上做出合理的决策了。」

所以有不同的见解本事就是非常正常的一个事情,只是我看完老高那段分析觉得我们在《赋予数据灵魂——探寻网空测绘数据和 GDP 的关联》 报告中存在“一些问题”:

「如果观察的不够仔细,又如何做到洞察数据来“赋予数据灵魂”呢?


说句实话,它们的分析方法里,既没有看 IP 数量和 IP 人口数量相关性,是个硬伤,可能他们不认为有关系吧;而在它们所掌握的网络空间数据里,如果能根据 IP 所有者或者 DNS 数据、开放端口情况分析出来大量 IP 实际是数据中心用途,也不会是现在这个结论了,这更是个硬伤吧。」

看到这里给我的感觉就是,老高是不是有什么误解,他这个纠结的点跟我们报告结论我怎么看也没有什么冲突的东西,因为我们原始的报告里最核心的“赋予数据灵魂”的观点是:

「国家的在线IP数量规模和其GDP规模成正相关性。这种相关性也受国家互联网发展水平所影响:数字经济规模占GDP比例较高的国家,其在线IP数量的全球排名大概率会高于其GDP的全球排名;而数字经济规模占GDP比例较低的国家,其在线IP数量的全球排名大概率会低于其GDP的全球排名。」

我们报告里整体数据趋势也是基本符合的:

「我们发现国家的在线IP数量规模和其GDP规模成较强的正相关性,在线IP数量的增长速度和GDP的增长速度同样具有一定的正相关性」

于是我仔细看了下老高纠结的爱尔兰的那部分解读,觉得核心问题跟我们文章里推断的:

「由于爱尔兰公司税率很低,所以很多跨国公司把总部或者欧盟总部都设立在这里以进行合理避税,例如苹果、微软等IT巨头就将其欧盟总部设在爱尔兰;其软件行业已成为整个欧洲地区的标志性产业之一 [4] 。这些是爱尔兰GDP和在线IP数量年均增长速度较快的原因之一。」

有“问题”,他认为核心不是“避税”,而是:

「爱尔兰这么多 IP 的实际用途,大部分是用于数据中心了,尤其是 VPS、云服务和 SAAS 服务为主。」


「所以我认为,在爱尔兰为什么 IP 多的原因上就不应该仅仅强调税低,一定不是单一决定性因素。」

说实话到这里其实我也完全没看到冲突的地方,当然老高强调的“用于数据中心”这个点也是没问题的,我们文章里提到的避税等政策相关是不是跟这个“数据中心”的爆发有关联性,其实我觉得是很有可能的,当然这需要额外的具体分析。

至于老高纠结的BGP、还有啥人口数据相关性问题,其实在大数据分析维度上来说,很多细节话的环节其实是不用纠结太多的,不影响核心结论。果然纠结太多反而会有先入为主的陷阱:

我很多年前我就告诫我们小伙做数据分析的时候切忌“先入为主”,这样会导致实现所谓的“逻辑自洽”而导致完全失去大数据分析的意义。(也就是为了某个自以为的逻辑而去强帖某个结论,实际上这样做出来的基本算是“伪”大数据分析)这几天我们发布的最新的分析报告《赋予数据灵魂——探寻网空测绘数据和 GDP 的关联》https://paper.seebug.org/3015/ 就是一个很好的例子,因为我也看到一些反馈,比如说没有考虑在线设备(出口IP为同一个的),还有反馈因为IP定位问题可能带来的误差,这里就先不纠结具体细节了,实际上就整体上来说在大数据分析上这些细节点完全是可以忽视的,基本上不影响我们的结论!

当然我需要说明下:我不是说BGP等数据维度分析没有意义,也不是所谓的“国内几乎没有网络安全公司去关心的,无它,不赚钱嘛”,最起码我们不是,反而我觉得不只是BGP,包括Traceroute、甚至Ping数据都是非常有价值有意义的,而且有的工作有的数据我们都有,但是没有真正对外开发也没有用起来,这里一个核心问题是成本问题,这又回到了之前黑哥尔那句经典:“1、获取更多的数据。2、赋予数据灵魂。

「数据挖掘的本质是从数据中提取事先未知、潜在有用和最终可理解的知识,传统空间数据挖掘的过程可以大体归纳为:数据准备(数据收集、整理等)、数据挖掘(数据分类、聚合、特征提取等)、数据完觉后处理(知识的解释、评价等),数据经过挖掘分析蜕变成为知识,知识经一步升华为智慧,由此去帮助决策者做出合理的决策。这跟我们提出的网络空间测绘的两个核心关键点:“1、获取更多的数据。2、赋予数据灵魂。”的理念是基本一致的。

当然很多时候有可能从其他数据角度分析也可以得到相同的结论,比如在《谈谈网络空间测绘在国家级断电断网事件上的应用》里提到的伊朗事件那个例子,论文作者通过“互联网背景辐射流量及ZoomEye动态测绘数据进行追踪分析及网络取证”得到同一个结论,又比如在俄乌冲突事件的分析有国外大学学者使用了不同的数据:

《从用户视角评估俄乌冲突中乌克兰互联网稳定性》 “该工作由来自美国卡内基梅隆大学以及谷歌公司的研究人员共同完成。该论文利用Measurement Lab网络测量工具Network Diagnostic Tool (NDT)在乌克兰的用户数据。” 我是没想道测速服务还有那么多人用,挺有意思的视角,只是个人觉得相比之下我们ZoomEye做的测绘视角感觉更加全面直观,当然我们也得到很多数据分析结论。所以想发顶会论文的,可以多跟我们联系联系啊!我们不光可以提供数据,甚至还可以提供“课题”,而且还非常有实际价值,当然也非常有意思。

论文原文:https://dl.acm.org/doi/pdf/10.1145/3517745.3561449

【注:我们的ZoomEye的俄乌测绘报告《2022年俄乌冲突战场动态测绘年度报告》 

强调这点的原因是,主要是说明很多维度数据再更立体的目标画像,但是在某些角度也是重复刻画同一个属性,在之前我们测绘的时候要确定某个目标用的设备,这个设备同时开了很多个端口,在识别这个设备的角度来说,你是通过80端口,还是666这个端口识别,并不影响识别结果。

题外话

在之前我们发了这些报告的时候老高留言说有不同的看法,我一直在等他的文章,其实我还在想是不是他在纠结我们曾经是他们的大客户而有所顾忌,看起来我有点狭隘了 ...

关于这些问题核心在我看来还是“二元思维”,在我之前发布的内部培训视频里其实有提到,强烈推荐!

“苦口婆心”可能说的就是我了~~ 当然我非常希望看到大家的各种反馈!

今天转发了很多老文章,还有一篇就是文章里引用多的那篇,刚抓发就被官方删除了(提示地图使用不规范),所以不得不重新发,叨扰大家了~


黑哥虾撩
古典过期黑客,江湖人称苏坡黑、黑锅、黑大壮等,自称黑哥尔!