,这周四的Nature主刊上,关于大模型参数越大,越容易出差的研究,吸引了笔者的关注。这项研究对比了不同参数量的开源的llama2,bloom以及闭源的chatGPT,针对数学计算,逻辑推理,空间位置以及科学知识等偏理科的问题,考察模型的性能。结果显示,大模型果然能将过去几乎没有概率正确回答的问题以一定概率回答,但出现了下面反常现象,导致模型店准确率反而由于参数的增加而下降。
该研究将大模型的回复分为了正确,错误以及回避(承认自己答不出)。在较小参数的模型中,模型虽然无法回答,但会回避问题,然而较大参数的模型,举一个例子:虽然将正确回答的概率从1%提升到了60%,但回避问题的概率变为了10%,剩下的30%模型会回答错误;而小参数的模型会有90%的概率回避问题,这导致的结果就是模型参数变大后,反而答错的概率变大。
https://www.nature.com/articles/s41586-024-07930-y
针对该问题,也行读者会觉得新出的GPT o1能解决问题,然而从o1出现,说明当在训练集,参数集上的超线性scaling law逐渐由于训练数据的耗尽而失效时,官方选择了通过时间的sclaing up(三思而后行)来试图继续延续指数级的性能提升。然而正如S型创新在一个周期达到峰值后,需要启动另一个维度来继续,思考过程的延长,不一定能带动群体智慧的涌现,笔者古话“从君明则臣直”中想到,当下的大模型既然是助手,那不妨尝试让其变得更加正直,从而提升用户体验。
所谓让模型变得正直,其实对于文科及理科的问题都会有帮助。对于何为有德之人,古代的哲学家有很多描述,例如诚信,勇敢,善良,宽容等众多道德品行。笔者设想,可以在构建专家混合模型时,让每个模型不再按照其擅长的问题分,而是按照品行去细分。除了上述列出的品行,还可以加入非常规思维,有想象力等特性,让每个子模型分别根据自己微调的性格特征先进性回复。之后还可以引入图结构,通过让预训练后的模型进行批判,总结,模拟不同性格间的内心辩论,通过有向无环图(DAG)的方式迭代,之后再次由各个性格的子模型回复,批判,最终先对各组回复及批判按质量排序,并由一个负责总结的模型得到最终结果。
相比于链式的scaling,上述的多性格混合模型范式,笔者觉得有如下几个优势:
1,训练过程中,可以通过引入有意识的反馈(选择训练语料,根据性格由人类通过打分给出反馈)会更使得模型在完成了基线数据的基础训练后,变得特化的更加多样化。由于群体智能的涌现依赖于多样性,群体异质性(如果一个群体中大家都众口一词,那么就没有可能出现1+1大于2的结果)相比让模型具有能通过RAG获取的专业知识,不同性格特色的专业模型在回复上将可能更加多样,从而更可能提升专家混合模型的性能。
2,在推理过程中,用户可以根据自己的偏好,结合任务类型去动态调整不同模型的权重,例如在需要关注准确性的任务上,可以让表现的诚信的自模型具有更大的权重,预期头脑风暴的任务,将特征为非常规思维的模型店权重增加。这样用户可以根据自己的预期,以透明的方式去使用混合模型,从而让用户能更透明地去和模型互动。
3,使用图结构后,用户可以根据自己预期的计算量,去调整计算过程,例如可以改变图的深度和宽度,例如深度设为1的时候,宽度设为3的,只是由选定的权重最高的3个子模型进行回答,并由这三个模型对其它模型的结果进行批判,之后由负责总结的模型得到汇总结果,这种方式所需的计算成本相对低。而当深度为3的时候,则需要进行3轮的迭代,从而中间会产生更多的token,预期效果提升的同时,计算量也会提升。
4,由于采用了DAG,不同自模型间的反馈将可以非线性的方式展开,例如准确度要求较高的任务,可由性格特征为尽职的模型检查推理过程是否有跳步骤,由性格特征为谦逊的模型去生成相对成熟的推理步骤,如此这样两个性格特征模型店合作,将可能避免前文提到的模型越大,错误出现的概率越多的悖论,从而让模型学会谦虚。而对于用户希望大模型能促成创意的场景,性格特征为勇敢的模型,可以被设置为去修改特征为非常规思维模型制定的推理步骤,去掉其中由训练数据包含的假设,从而使模型得到的答复更加天马行空。这样的反馈操作(图中的连边)可以通过概率的方式形成,进而使得模型能够超越思维链,获得更多的涌现能力。
更多阅读