朱小黄专栏|关于元数据“绕”的问题及解决方案

学术   2024-10-15 17:50   广东  


解决元数据被定义、被曲解,发生偏差后被运用到经济预测模型和人群之间交流时产生的误解和差异问题,即减少“绕”所带来的困扰,是重要的数据底层逻辑问题。蒙格斯智库构建的基于不确定性的数据重构工具(TDRU)对现有数据进行重新分类和赋值后运用,可能最大程度地排除“绕”所带来的数据干扰。这是理论与实务上的重要探索,值得关注。

图源:千图

笔者和胡本立(原世界银行技术官)先生谈到观察和理解数据的新维度时,胡先生提出了“绕”这个概念。人与人之间沟通的前提是数据(语言和符号)的定义条件。数据从客观外界映入人脑形成概念,产生语言和符号等数据,再由人脑加工通过语言等数据输出到客观外界,加以运用并输入人脑,反复循环,人们已经习惯于用数据解释数据,而越来越顾不上这个循环中产生的偏差。这就是“绕”,绕来绕去,概念的定义越来越模糊。这是人类文明的难题。

“绕”就是人类以语言解释语言(即以数据解释数据)却又无法跳出语言的定义不清使交流限于语言数据之间的循环往复,构成了逻辑上的循环困境。

“绕”不是一个纯科学问题,看起来是数据中的逻辑循环,但与我们常遇到的逻辑循环和重复定义不同。是一个数据上定义不清楚导致的问题。以数据解释数据,这是一个巨大的理论陷阱,也是一个巨大的实务难题。需要从数据治理源头上解决问题。

另一种“绕”是语言和宏观数据常常被用来刻意掩饰某些真相,这不是运用数据的初衷。事实上人类在相互沟通中我们经常遇到的逻辑环不断地运用语言、度量单位、数据标准尽量达成共识:对各种数据给予更广泛共识的定义。尽管如此,人与人之间,经济组织之间,地区经济体之间仍在广泛存在的数据歧义中艰难合作。这也是一种“绕”。

数据来源于人的认知,数据语言或其他数据以数据或文字说明定义数据和语言,的确是兜圈子,但它源于人类认知能力的有限性。这是人类无法摆脱的困境,也不宜企图期待这些能改变。

语言的精炼过程,也是尽量避免太“绕”的程度,语言不精炼也是一种“绕”。格林斯潘总是故意使用模糊的语言,当新闻媒体发出不同的报道时,他说我成功了。

所以“绕”的问题是一个伴随着人类文明进程的逐渐模糊和不断清晰的进程。

什么是元数据?核心是概念的产生,概念如何在脑内形成和如何分类的认知问题,我们也可以把这些人脑刚产生的数据称为元数据,它们需要别的数据来定义解释。概念如何产生的,这需要生物物理学或生物化学来解释。然后是它们的在脑内和脑外如何表示的认知问题。脑外的,如自然语言,“机器学习”“物理学”“生物学”各种名称等,以及对它们的共识所形成的知识。

实际上我们平时所说的知识,只是知识的数据表达,那么知识和知识的表达区别在哪里呢?胡本立认为存在三层结构:一是概念和知识本身的产生,二是产生之后它们在脑内的表示即状态,三是产生了它们在脑外的语言和符号表达。元数据、认知和数据三个层面。

如上所述,语言和符号的循环,会产生被人脑放大或缩小的变化,这个过程非常复杂,就是元数据在被解释的过程中产生各种偏差漂移的过程。

AI的数据运用从根本讲也是“绕”。所以AI可能就是元数据的放大或缩小,是数据“绕”的循环中的阶段性产物,AI越升级,偏差会越来越大,机器人会做出什么事,对人类有益无益有害无害也就很不确定了。这也是2024年诺贝尔物理学奖获奖者杰弗里·辛顿(Geoffrey Hinton)所担心的。他曾表示,新知识会以微妙的姿态融入人们现有的神经网络,有时它们是转瞬即逝的。例如,当你在聚会上遇到一个陌生人,他的名字可能只会在你的记忆网络中留下短暂的印象,但有时它们可能持续一生——要是这个陌生人成为你的配偶或朋友。由于新知识与旧知识相互交融,你所知的会影响你所学的。如果派对上有人跟你谈论了他的阿姆斯特丹之旅,那么第二天,当你逛博物馆时,你的神经网络可能会把你往维米尔(Vermeer,17世纪荷兰画家)那儿推一推。类似地,微小的变化往往会引起巨大的转变。

正因如此,他担心人工智能可能造成危害,并开始在接受采访时谈论这项技术可能对人类构成的“生存威胁”。他越是使用Chat GPT(一个由大量人类写作语料库训练出来的人工智能系统)就越是惴惴不安。这种不安笔者认为是来源于当机器拥有某一量级规模时可能发生的不确定性涌现,出现某些人类不可控的变异结果。


自然科学研究中也存在元数据被定义被“绕”的问题,但自然科学通过反复的实验证明某些现象的可重复性,由此而尽量减少了元数据的偏差,减少了人的主观因素的干扰。所以自然科学的数据(如公式、常量)都是可重复使用的数据,可预测性强。但社会科学是基于人和人的生存环境及其心理与行为关系的科学,无法像自然科学那样寻找到可重复数据预测未来。环境和人及心理都在变化中,所以无论社会科学设计和运用怎样“科学”的方法和工具,虽然也能尽量避免一些人的主观干扰,减少“绕”的程度,但都只能无限改善,做到比现状更好一些,而不可能像自然科学那样无限接近自然真实。

即使是会计与统计数据,本质上还是概念、观念的延伸,是某种程度的“绕”的结果。我们不能企图在过往的统计数据分析中找到永恒的规律或真理,所有过往的数据分析本质上是有条件前提的产物,也是某种主观立场即维度指导下的分类和数学计算,可以从某个维度发现可重复数据,并赋予它们分值后用于预判未来。但这也并不是可靠的结果。例如统计学上的正态分布,也是以主观框架为条件的数学模型结果,对于每个个体事件而言毫无意义,但数据量级更多时,呈现出分布概率的正态形状,可以用以预判未来事件的分布状况和概率,在这个意义上可以作为可重复数据使用。但当主观框架逻辑发生变化时,这种可重复也是无本之木。即便如此,当数据计量更大时,不确定性逻辑下极有可能“涌现”出人类统计计量所料不及的结果,如出现非正态分布。所以,数据的“绕”的循环,也是不确定性的经典现象。

理解这种担心和提出解决方案要从定义数据是什么开始。确认除了元数据,其他都是延伸或衍生的数据与人脑产生的元数据被人多次处理后的数据。机器对数据的模拟处理更是人脑处理输出后的事情,更包含了各种不确定性和衍生、偏差现象。

市场是人类生存环境与场所,市场中的最优交易只能是不确定性的产物,只能是依据“看不见的手”才能实现最优效益和公平,不可能完全排除“绕”的偏差,所以市场也会附带不合预期的风险敞口。只是可以肯定地说,它比计划或其他场景环境更能减少人类主观干扰,减少过程元数据的“绕”的程度。

所以大数据不能带来计划的技术环境,反而会更多地“涌现”出所料不及的不确定性收益或损失。

解决元数据被定义、被曲解,发生偏差后被运用到经济预测模型和人群之间交流时产生的误解和差异问题,即减少“绕”所带来的困扰,是重要的数据底层逻辑问题。蒙格斯智库构建的基于不确定性的数据重构工具(TDRU)对现有数据进行重新分类和赋值后运用,就可能最大程度地排除“绕”所带来的数据干扰。这是理论与实务上的重要探索,值得关注。

点击视频了解TDRU工具👇





作者简介

朱小黄

朱小黄,蒙格斯智库学术委员会主席;中山大学经济学博士,国务院特殊津贴获得者;中国行为法学会金融法律行为研究会会长;原中国建设银行首席风险官、副行长,原中信银行行长、中信集团监事长。朱小黄博士是国内风险研究和宏观经济研究领域专家。






联系我们

转载事宜及商务合作:Mongoose_Report(添加好友请备注机构及姓名)

市场有风险,投资需谨慎。本文不构成投资建议,不作为实际操作建议,交易风险自担。


点个“在看”不失联

蒙格斯报告
蒙格斯是“獴”的英文音译。獴生性警惕,日常活动中会留下一只充当哨兵,一旦有危险情况,哨兵便发出特殊叫声来提醒同伴。蒙格斯智库的理念与愿景:为学人留存经典;为学问建立路碑;为读者构筑曲径;以拐点观察经济;为大众提供数据;为投资寻找价值。
 最新文章