[数据概念][转载]数据交易中介,麦克斯韦之妖

文摘   2025-01-07 12:45   北京  

 拿翡翠原石交易来比数据交易还是蛮形象的。



今天的主要内容来自公众号 信息化与数字化,作者沈旸。沈老师的一篇文章里边有些观点比较值得大家看一下,特别是以翡翠原石交易类比数据交易,还是很形象的。


下边就摘录几段内容大家一起学习,全文可以点查看原文。





01   数据交易的困境:场外交易和低频

————————



中国的数据交易发展这么多年,大部分的数据交易并没有形成真正的线上交易,这个与我们理解的“现代化交易所”有很大的区别。现在的数据交易,更多的像是场外交易,非常像翡翠原石的交易。

据《2023 中国翡翠产业发展白皮书》显示,2022 年中国翡翠市场交易额达到 1134 亿元,连续 3 年成长为仅次于黄金的第二大珠宝消费品类。翡翠之所以具备较高价值,关键在于其稀缺性,尤其是那些品质珍贵的翡翠,往往是独一无二、不可复制的存在,这种天然的稀缺特质使其在市场上拥有了稳固且可观的价值基础。目前数据交易的市场规模,可能只有翡翠交易的零头。

数据提供商首先向采购方提供部分数据样本,采购方则需为此支付相应的一部分费用。待采购方对样本数据进行评估,确认符合自身需求后,数据提供商再进一步向采购方提供更多的数据,相应地,采购方也会按照约定支付更多的费用。整个市场更像是个灰度信息的暗网交易市场,而不像是一个公开交易的市场。

由于数据本身具有易复制、易窃取的特性,这使得在交易过程中,交易双方都极为谨慎,通常只会采用样本试探的方式来逐步推进合作。更为复杂的是,在数据交易市场上,供应方和需求方往往很难直接对接,其间可能会涉及多个中间商参与其中。这些中间商大多也是凭借部分样本数据来促成交易,这无疑进一步增加了交易链路的复杂性和不确定性。

数据交易还面临着一个棘手的难题。倘若交易的数据是固定不变的数据集,那么购买了数据的一方极有可能摇身一变成为下一个数据供应商,也很难限制数据购买方故意或者不小心泄露这些数据。如此一来,市场上便会存在多份完全相同的数据。随着数据交易频次的增多,这种情况愈发普遍,市场上潜在的数据供应也会越来越多,进而不可避免地导致数据本身的价值不断降低。

从长远来看,这就意味着数据交易大概率会呈现出低频的特征,无法形成规模经济效应。并且数据在经过几次交易流转之后,就如同煤炭逐渐燃尽变为煤渣一般,价值大打折扣,最后可能沦落为网盘中价值几分钱的数据。很难像翡翠那样凭借自身独特属性维持较高的市场价值,形成稳定且可持续的交易市场格局。




02   数据交易的真正难点:流通和匹配

——————————————————


在当今的市场环境中,数据交易市场与翡翠市场存在着诸多差异,其中最为突出的一点便是数据供需双方的匹配难度。

翡翠市场历经多年的发展,已然形成了相对成熟且活跃的二级市场。在这个市场里,一件珍稀的翡翠工艺品往往具备良好的流通性,即便它不符合某一个人的喜好与需求,持有者也能够较为轻松地在市场上寻找到其他感兴趣的买家,从而顺利将其转手售卖出去。这种顺畅的流通得益于翡翠本身具有相对客观且被广泛认可的价值衡量标准,无论是其材质的稀缺性、工艺的精湛程度,还是外观的美观度等,都能够成为评判其价值高低的依据,进而使得翡翠在市场参与者之间可以自由流转。

然而,反观数据交易市场,情况则截然不同,数据的流通性远不及翡翠。对于同一份数据而言,它在不同个体或企业眼中所体现出的价值可谓天差地别。也许对于某个人或者某个企业来说,这份数据极具价值,能够为其带来诸多助益,例如帮助优化业务决策、挖掘潜在市场机会或者提升运营效率等。但换做另一个人或者另一家企业,这份数据可能毫无用处,甚至被视作是毫无价值的 “垃圾”,哪怕仅仅是将其保存在硬盘之中,都会让人觉得是在浪费宝贵的存储空间。

在现实的市场环境中,大部分数据的真正拥有者,出于种种顾虑,其实并不希望自己所掌握的数据向外扩散。就拿个人用户来说,在互联网飞速发展的今天,人们在使用各类互联网产品的过程中,个人数据会不可避免地被收集起来。但事实上,大部分个人用户内心深处是抵触这种情况的,他们并不希望自己的私人信息、行为习惯、消费偏好等个人数据被互联网产品获取,更不希望这些数据被用于其他未经授权的用途。

同样地,对于企业而言,企业内部的数据往往包含着诸多商业机密、核心运营策略以及客户资源等关键信息,这些数据一旦公开到市场上,极有可能被竞争对手获取,进而使自身在激烈的市场竞争中处于劣势地位。

但是,许多个人或者企业,甚至都不清楚自己所拥有的数据已经被打包整合进了各类的数据服务商之中,并在数据交易市场上被二次交易。这种信息的不对称造成的灰度市场,无疑进一步加大了数据供需匹配的难度。




03   数据的流通:没有想象的那么简单

——————————————————


麦克斯韦妖诞生于 1871 年,是由英国物理学家詹姆斯・麦克斯韦为了阐释违反热力学第二定律的可能性而设想出来的一个神奇 “妖物”。当时,麦克斯韦敏锐地察觉到自然界里似乎存在着一种与熵增加相抗衡的能量控制机制,可他却难以清晰、准确地去说明这一机制到底是如何运作的。于是,他以一种诙谐的方式假定了这样一种 “妖”,它有着非凡的能力,能够按照特定的秩序和规则,把那些做着随机热运动的微粒分配到相应的相格里。从某种意义上来说,麦克斯韦妖算得上是耗散结构的一个雏形。

我们不妨用一个简单的例子来描述它的神奇之处。想象有一个绝热容器,它被平均分成了相等的两格,而在两格中间,存在着一扇由 “妖” 掌控的小 “门”。容器中的空气分子不停地做着无规则的热运动,不断地向这扇门上撞击。而这扇神奇的 “门” 能够选择性地将速度较快的分子放入一格,把速度较慢的分子放入另一格。分子运动快的区域温度高,分子运动慢的区域文帝低。如此一来,其中的一格温度就会比另外一格高,借助这样的温差,便能驱动热机去做功了。这无疑是第二类永动机的一个典型范例,展现出了一种看似打破常规的能量操控可能。

然而,事情并非如此简单直接。就像在 1981 年,Bennett 的论文所揭示的那样,麦克斯韦妖控制 “门” 使分子从一格进入另一格的过程中,耗散并非发生在衡量过程里,而是出现在妖对上个分子判断 “记忆” 的去除过程,且这个过程是逻辑不可逆的。

麦克斯韦妖要实现对分子的准确分拣,需要先获取分子状态的信息,也就是需要 “知道” 哪些是快分子、哪些是慢分子,这个获取信息的过程其实是减少了系统的不确定性,相当于降低了信息熵。但与此同时,妖对这些信息的记录、判断以及后续处理等操作是需要消耗能量和产生相应的熵增的,从这个角度来看,又符合整个大系统(包含妖和分子所在容器等构成的整体系统)的熵是增加的这一规律,从而化解了麦克斯韦妖与热力学第二定律最初的矛盾表象。



04   衡量数据交易的价值:是否能独立赚取利润

——————————————————


麦克斯韦妖若能精准地知道快的分子在哪里,以及它们应该被放置到哪里,便能通过制造温差,进而利用这个温差驱动热机去做功,创造出额外的价值一般。在数据交易的情境下,如果我们能够精准地知晓谁能提供有价值的数据,谁又迫切需要这些数据,并且可以像麦克斯韦妖操控分子那样,进行极为精准的匹配,那么理论上就能挖掘出数据交易匹配所蕴含的价值。

然而,数据交易的实际情况远比想象中复杂得多。数据交易市场中存在海量的数据供应方和需求方,其各自的数据特点、需求偏好千差万别,要想精准地识别出每一个数据提供源的价值所在,以及每一个需求方的具体诉求,本身就是一项极具挑战性的任务。数据交易的中介,试图去知道这个世界上哪里能提供有价值的数据,哪里又急需这些数据,这种信息的获取和匹配本身也需要耗费巨大的成本和能量。

其一,获取数据供需信息需投入大量人力、物力和时间成本,要做广泛市场调研、数据收集分析,如同麦克斯韦妖观测分子般繁杂耗资源,这会影响最终盈利。

其二,获取信息后,记录、整理及判断处理需搭建系统、运用算法,会消耗能量(类比实际成本支出),且可能出现信息更新不及时、匹配失误等情况,影响匹配准确性和有效性,使价值大打折扣。

其三,数据交易具动态性,受时效性、准确性、隐私性等因素影响,已匹配有价值的数据可能随时失效,中介需持续跟踪、重新评估和再次匹配,这些消耗影响盈利。

其四,类似麦克斯韦妖的熵增情况,数据交易的匹配尝试、信息处理会留 “痕迹”,冗余内容清理管理也耗资源、增成本,影响盈利。

在现代经济社会中,评判一个经济单元的能耗就是收入能否大于成本,这样才能维持其可持续发展对于大数据交易中介而言,其存在的价值判定标准或许就聚焦在能否依靠自身力量,独立自主地运营业务,实现自负盈亏。只有这样,数据交易中介才能真正彰显出价值所在,也才具备持续发展、为市场创造有效数据交易服务的能力。




***   历史文章分类推荐

——————————————————


数据概念




法规规划


方案实操


公共数据


清华数据大讲堂系列






数据资产化,鼹鼠哥与你一起。



欢迎大家公众号后台留言,或者后台回复“进群”,进群一起聊。



IT鼹鼠
CDMP/AWS认证架构师/高级项目管理师/ACS/香港金融优才,希望把20+年企业IT和云与大数据行业,从头部大厂到创业公司的所得和您分享。
 最新文章