知识的储存与丢失

教育   金融财经   2024-08-22 08:54   河南  

Sir John Barbirolli指挥Philharmonia在EMI录制的马勒五被认为是公认的经典演绎。据说原始录音中第三乐章一处的圆号进入晚了,初始发行的LP黑胶版本就留下了这个些小的瑕疵遗憾。


在1990年发行CD版本的时候,这个问题被修正。再后来,在集结20世纪经典系列时,EMI的录音师又回到了LP时期的原始母带,将其重新数字化remastering。于是,最新的版本又恢复了原有的瑕疵。


也许录音师,制作者,出版者可能并不知道这个录音曾被纠正过的事实。或者,这个事实虽有存证,但被大家忽略了。


这种信息丢失的现象,其实是很常见的。而且,在数字化时代,尤其如此。从甲骨、青铜、碑刻到各类印刷制品,信息的承载都是有实体可追溯的。数字化时代,一键就可能抹去所有的记载。


信息的积累、更新、覆盖、消失和蜕变,是有特定路径的,不仅人工难以完全准确地把握,数字化技术可能更加容易忽略这种特定的演化过程和不同节点的结果呈现。


过去上课的时候曾经举过这样一个例子。从元大都开始到现在,北京的下水道系统的构造格局与具体细节,有没有一个机构或者具体的人能够全盘通晓、如数家珍?答案估计应该是否定的。


一个单篇的录音,打了补丁都可能被忘掉,一个复杂千万倍的立体网络系统,上千年的改造演化,谁能完全说得清楚?各村地道都有高招。


数字化时代的所谓海量数据,通常都是以synthesized形式存在的,原始数据很难被常人知悉或者找到。


比如,谷歌学术,你去搜索Herb Simon的名著Administrative Behavior。原始版本是1947年的。重复再版数次。如果你去查Google Scholar,出现的版本就只有2013年的版本,显示的所有版本的总引用次数是42020。


只从谷歌这一个source,一个学术小白不可能知道Simon 1947和2013的关系和区别。Simon 2001年去世。2013年的Simon可能是哪个学校的青椒吧。


当年,Amazon横空出世的时候,就是靠几个西格玛之外的reach:我们能帮你找到几乎所有人找不到的书。


按说,谷歌也有这种能力:我们能给你提供准确完备的知识,包括其具体的演化路径和踪迹标记。


它没有这么做。成本极高。数量级地增高。巨无霸如谷歌者做不到。谁能做到?!这是个实实在在的问题。


也许,我们无法想当然地认为所有的信息都是有用的。我们也无法想当然地认为信息都是免费的,尤其是有用的信息。


现在机器学习依据的信息大多来自网上,已然属于synthesized info,被处理和过滤过的信息。其真实性、代表性、权威性都会大打折扣。


比如,据称机器学习一半以上的feeding data来自于Wiki。你想用扭腰时报的信息,掏钱!


说了半天,啥意思?


你指望AI解决上述问题。想多了。


回到Herb Simon (1947),人有bounded rationality,AI有bounded intelligence。这是我们最近一篇paper的主题。







马浩on战略管理
management professor