昨天中国人工智能学会的直播,点进去听了几分钟,赶上中科院软件所韩先培教授报告的最后几分钟。来得早不如来得巧,听下来几点感受。昨天草草记下来了,今天早上补充了一些,分享给大家
1)合成数据导致LLM性能下降,好吗?
韩教授pre的论文发现,RAG系统,随着LLM生成的数据(AIGC)加入训练集,检索性能的影响呈现出初期性能大幅提升,但迭代几次后性能大幅下降。论文认为,当合成数据和人类数据同时提供给大模型时,LLM生成的数据会被优先检索和考虑。随着迭代次数增加,AIGC数据比重越大越大,知识库同质化程度越来越高,检索价值大幅下降。
下图是该论文聚焦的架构
最近类似的发现,硅基流动袁进辉在朋友圈分享了两篇。一是 Meta 团队发现, 1%合成数据就能让模型瞬间崩溃!甚至,参数规模越大,模型崩溃越严重。二是Apple研究团队认为,当前的大语言模型缺乏真正的逻辑推理能力,更多是在基于训练数据中的模式进行匹配,而非像人类一样进行符号和逻辑推导:调整问题中的数值,模型准确率下降 10%;问题增加一个额外但无关的子句,性能下降幅度高达 65%。
韩教授的论文把LLM对合成数据的青睐framing成为悲剧:人类知识在上述系统中被边缘化、知识多样性降低。但也可以从积极角度理解:这说明AI系统在与人类知识系统的竞争中存在弱点。该论文把它们的发现比喻为沉默的螺旋,实际上是一个负循环。负循环越多,人类的信心就越大。
这样的技术研究吸引了我(一个商业研究者),主要因为它们挑战了 智能飞轮。可以说,如果智能飞轮不成立(或者成立的程度缩水),顶尖AI公司估值至少对折,因为它少了一个支撑其预期的经济性。
2)大模型认识碎片化,为什么?
韩教授的报告是以盲人摸象的比喻结束的,形容当前学术界对于大模型认知的碎片化。确实,前一篇论文发现某机制存在,然后另一篇发现不存在,在LLM研究中是家常便饭。
在我看来,从方法论角度,这几乎是必然。由于大模型本身处于高速发展和迭代中,我们除了在transformer架构这种层面之外,哪里可能得到什么“科学知识”呢?都是工程。大模型本身不稳定,测试基准也不唯一。基于一个或几个独特的测试基准去测试的一个或几个独特的大模型,得到的结论,随着模型进化或基准变化,出现变化太正常了。
用学术黑话来说,结论不可推广(generalized)。
本质的原因在于,当claim 某大模型机制时,由于不知道大模型的内在特征和本质属性,故而无法区分某种效果到底是大模型的内在机制在起作用,还是contingent的外在条件在其作用。所以,研究发现的某个机制,由于边界条件无法澄清,注定是无法推广的。几乎可以断定,绝大部分关于LLM的研究,其边界条件都是欠缺的。基于研究发现所提出的“理论”,都是可疑的——实践很容易发现与这些理论的不符。
以上,解释了为什么LLM研究总是来回拉锯。袁进辉说,Nature杂志的发表标准似乎降低了。我也认为,Nature不恰当地为理论基础还不甚稳固的研究提供了背书。有人会说,大模型都诺奖了,你还说不科学?AI之父在为AI研究缺乏理论基础担忧,诺奖砸头上了。科学不科学?
为什么上述理解对AI商业研究重要?因为这种状况及其根源让我更直观、具体地理解到AI的底层不确定性。这种不确定性短期内不可消除,也是我在一次发言中提到的deep uncertainty。我给自己的任务是年底出一份AI产业分析报告(类似于去年年底那样)。这样的报告必须建立在可靠的基础(而非个人信念)之上。那么,知道哪些东西不可靠就非常重要。
3)知识与数据的区分
韩教授演讲的最后,有一位女士现场提问关于知识与数据的区分。韩教授也承认这是一个好问题,但似乎回答的比较含糊。我认为,韩教授发现的沉默螺旋,很大程度上是直接把“数据”导入“知识”库而造成的。
前几天,我在一个帖子里面提到“需要区分知识库中的知识和基于这些知识由智能体产生的知识”。现在,我应该更正一下:需要区分知识库中的知识和基于这些知识由智能体产生的数据。
知识可以产出数据。RAG+LLM本质上构成了一个由知识产生数据的系统。RAG的加入使得LLM所产生的数据更接近于知识。但最终能不能用、怎么用,还得人利用自己的知识去做判断。如何把这个判断纳入RAG是系统进化的关键。这就是所谓的基于人工反馈的强化学习。
反过来成立吗?数据可以产出知识吗?韩教授论文所呈现的,以及合成数据所推销的故事,则期望LLM去搞定用数据产生知识的过程。目前看起来是存在问题的,因为它把人抽离出去了。
智能飞轮,可能最终还是需要人的。