人，在智能飞轮中，可能最终是有位置的

文摘 2024-10-14 08:39 北京

昨天中国人工智能学会的直播，点进去听了几分钟，赶上中科院软件所韩先培教授报告的最后几分钟。来得早不如来得巧，听下来几点感受。昨天草草记下来了，今天早上补充了一些，分享给大家

1）合成数据导致LLM性能下降，好吗？

韩教授pre的论文发现，RAG系统，随着LLM生成的数据（AIGC）加入训练集，检索性能的影响呈现出初期性能大幅提升，但迭代几次后性能大幅下降。论文认为，当合成数据和人类数据同时提供给大模型时，LLM生成的数据会被优先检索和考虑。随着迭代次数增加，AIGC数据比重越大越大，知识库同质化程度越来越高，检索价值大幅下降。

下图是该论文聚焦的架构

最近类似的发现，硅基流动袁进辉在朋友圈分享了两篇。一是 Meta 团队发现， 1%合成数据就能让模型瞬间崩溃！甚至，参数规模越大，模型崩溃越严重。二是Apple研究团队认为，当前的大语言模型缺乏真正的逻辑推理能力，更多是在基于训练数据中的模式进行匹配，而非像人类一样进行符号和逻辑推导：调整问题中的数值，模型准确率下降 10%；问题增加一个额外但无关的子句，性能下降幅度高达 65%。

韩教授的论文把LLM对合成数据的青睐framing成为悲剧：人类知识在上述系统中被边缘化、知识多样性降低。但也可以从积极角度理解：这说明AI系统在与人类知识系统的竞争中存在弱点。该论文把它们的发现比喻为沉默的螺旋，实际上是一个负循环。负循环越多，人类的信心就越大。

这样的技术研究吸引了我（一个商业研究者），主要因为它们挑战了 智能飞轮。可以说，如果智能飞轮不成立（或者成立的程度缩水），顶尖AI公司估值至少对折，因为它少了一个支撑其预期的经济性。

2）大模型认识碎片化，为什么？

韩教授的报告是以盲人摸象的比喻结束的，形容当前学术界对于大模型认知的碎片化。确实，前一篇论文发现某机制存在，然后另一篇发现不存在，在LLM研究中是家常便饭。

在我看来，从方法论角度，这几乎是必然。由于大模型本身处于高速发展和迭代中，我们除了在transformer架构这种层面之外，哪里可能得到什么“科学知识”呢？都是工程。大模型本身不稳定，测试基准也不唯一。基于一个或几个独特的测试基准去测试的一个或几个独特的大模型，得到的结论，随着模型进化或基准变化，出现变化太正常了。

用学术黑话来说，结论不可推广（generalized）。

本质的原因在于，当claim 某大模型机制时，由于不知道大模型的内在特征和本质属性，故而无法区分某种效果到底是大模型的内在机制在起作用，还是contingent的外在条件在其作用。所以，研究发现的某个机制，由于边界条件无法澄清，注定是无法推广的。几乎可以断定，绝大部分关于LLM的研究，其边界条件都是欠缺的。基于研究发现所提出的“理论”，都是可疑的——实践很容易发现与这些理论的不符。

以上，解释了为什么LLM研究总是来回拉锯。袁进辉说，Nature杂志的发表标准似乎降低了。我也认为，Nature不恰当地为理论基础还不甚稳固的研究提供了背书。有人会说，大模型都诺奖了，你还说不科学？AI之父在为AI研究缺乏理论基础担忧，诺奖砸头上了。科学不科学？

为什么上述理解对AI商业研究重要？因为这种状况及其根源让我更直观、具体地理解到AI的底层不确定性。这种不确定性短期内不可消除，也是我在一次发言中提到的deep uncertainty。我给自己的任务是年底出一份AI产业分析报告（类似于去年年底那样）。这样的报告必须建立在可靠的基础（而非个人信念）之上。那么，知道哪些东西不可靠就非常重要。

3）知识与数据的区分

韩教授演讲的最后，有一位女士现场提问关于知识与数据的区分。韩教授也承认这是一个好问题，但似乎回答的比较含糊。我认为，韩教授发现的沉默螺旋，很大程度上是直接把“数据”导入“知识”库而造成的。

前几天，我在一个帖子里面提到“需要区分知识库中的知识和基于这些知识由智能体产生的知识”。现在，我应该更正一下：需要区分知识库中的知识和基于这些知识由智能体产生的数据。

知识可以产出数据。RAG+LLM本质上构成了一个由知识产生数据的系统。RAG的加入使得LLM所产生的数据更接近于知识。但最终能不能用、怎么用，还得人利用自己的知识去做判断。如何把这个判断纳入RAG是系统进化的关键。这就是所谓的基于人工反馈的强化学习。

反过来成立吗？数据可以产出知识吗？韩教授论文所呈现的，以及合成数据所推销的故事，则期望LLM去搞定用数据产生知识的过程。目前看起来是存在问题的，因为它把人抽离出去了。

智能飞轮，可能最终还是需要人的。

http://mp.weixin.qq.com/s?__biz=MzA4NjkyMDY1MQ==&mid=2650032210&idx=1&sn=ca4b1f408168cf7dea5e97c52b158e00

侯宏文存

没有标签，只有思想

最新文章

读《周其仁烟台夜话》，看国企民企关系

科学创业，从精准识别机遇开始

公司战略的五大误区

逃离时尚：不妨读点管理史

人定义问题，AI解决问题

北大国发院一年制“承泽企业家研修项目”，火热招生，10月底开学！

人，在智能飞轮中，可能最终是有位置的

大模型行业的挑战—来自自动驾驶行业的经验

潜龙勿用：穿越周期的中国企业、战略职场与商学院教育

当巨变发生，您的战略认知处于何种水平？

战略素养铸就企业韧性（公开课）

通向大模型、智能体以及人类的共同未来

企业可以没有战略规划，个体不能没有战略素养

北大国发院校友活动掠影-AI碰撞局第二局

若草台班子是世界真相，如之何

历史有迹可循，但未来无法预测

深度复盘无人驾驶：人间正道是沧桑

数字化课程作业总体反馈（2024）

数字化时代的战略理论？哄你的

场内数据交易一定比场外高贵吗？

一场关于AI的轻松对话（补一个视频）

自由与本心，蝾螈与黑狗

网络外部性、网络效应与平台

数据飞轮与（误导性的）智能飞轮

生成式AI的承诺与（商业）挑战（英文PPT）

数字机遇之产生、认知与实现

击破平台护城河的三条路径

一个物理学本科生对管理学理论大厦的看法

数字化机会空间（DOS）

平台、网络效应与大者恒大：幻想与现实

数字化创新与转型首先需要数字机遇

数字化课程知识体系梳理

数字化的边壁

生成式AI产业发展的前途与挑战

管理学质性研究方法导论（招募助教）

战略驱动的企业创新

通信网络运营对数字化商业的启示

数字化升级，而非转型

北大国发院直博生夏令营，抓紧申请吧

侯宏文存拥抱智能体

数字化转型课程大纲（2024年）

平台式组织：海尔链群合约与贝壳ACN有何不同？

是不是平台不重要，重要的是平台式获客

数字化时代的新平台现象

平台进入三大议题：赢家通吃，平台补贴与非价格策略

平台策略的灵活性、综合性与动态性

战略是关于做强的学问

每个人生而独特，是世界真相的一个方面

从战略简史到战略通识

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

人，在智能​飞轮中，可能最终是有位置的

人，在智能飞轮中，可能最终是有位置的