大语言模型们似乎都在拼命想当"好学生"!
知名人工智能专家Andrej Karpathy最近在社交媒体上提出了一个有趣的观察:所有的大语言模型(LLMs)听起来都惊人地相似。它们都爱用列表,喜欢深入探讨"多方面"的问题,过度热心地提供进一步帮助,回答长度也大致相同。
这种现象让Karpathy感到困惑,因为有这么多独立公司在进行微调,按理说应该产生更多样化的结果。
那么,为什么会出现这种"千模一面"的局面呢?
数据集的同质化
很多研究者指出,这可能与训练数据的同质化有关。
Nathan Lambert提到,即使是最好的数据标注公司,最终也会产生大量的语言模型输出。
这意味着,不同公司可能在使用相似的数据源进行训练。
Charles Fisher更是将这种现象比作官僚主义语言,让人想起费曼对NASA报告的批评。这种语言风格可能源于大量正式文档和报告被纳入训练数据。
Rohan Paul 则称:柏拉图式的代表论文讨论了这个问题。这种向“正确答案”的趋同被视为积极的,反映了真理是单一的而错误是多种多样的观点。
微调策略的趋同
除了数据集,微调策略的相似性也可能是造成这一现象的原因。kalomaze指出,这可能与KL散度(特别是PPO目标中使用的前向KL公式)有关。这种方法可能过度关注某些"桥接差距"的词语选择,即使这些选择在原始分布中并不常见。
安全性考虑的影响
Juan提出了一个有趣的观点:过多的安全防护措施可能使模型变得过于谨慎。这导致它们在比较事物时总是倾向于"两面论",难以给出明确的答案。
采样温度的影响
Jan Boon指出,在较低的采样温度下,重复性标点(如列表、句子长度变化小等)是一种采样伪影。这可能解释了为什么许多模型的输出风格如此相似。
潜在的解决方案
尽管目前大语言模型表现出高度的相似性,但研究者们已经开始探索解决方案:
Victor Dibia提议,正确的用户体验和预设可能是让LLM工具更广泛实用的关键。
Michal Kubicek认为,这个问题可以在输出层解决,可能通过适当的提示来实现。
有研究者建议,增加训练数据的多样性和使用权重衰减等正则化方法可能有助于改善模型的表现。
值得注意的是,一些新兴模型正在尝试打破这种同质化趋势。例如,Manu Sharma提到xAI似乎采用了不同的方法,而Tiago Freitas则指出Grok模型的表现与众不同。
随着人工智能技术的不断发展,我们期待看到更多独特而多样化的语言模型出现。这不仅能够丰富AI应用的生态系统,也能为用户提供更加个性化和高质量的体验。
那么,你认为未来的大语言模型会如何演变?
是继续趋同,还是走向多元化?
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!