首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
AI将进化超级智能,还是逐步崩坏?
科技
2024-11-25 18:31
北京
文丨海中天
都在说模型崩溃,它到底是什么?
现在的AI工具可以根据简短的文字提示生成令人惊叹的句子。生成之前,人类已经用海量信息训练大模型,这些信息来自人类书写的文本,从互联网抓取。
当AI工具被广泛使用,网上出现许多AI合成数据,这些数据被拿来训练大模型。
研究人员警告称,如果继续用未加甄别的数据训练AI,会出现灾难性结果。
牛津大学计算机科学家Ilia Shumailov不久前在《自然》杂志上刊文称,用AI数据训练大语言模型可能会导致模型崩溃。
这里所讲的崩溃不是说生成式AI无法运转,而是说AI工具给出的结果会离原训练数据越来越遥远。本来AI给出的结果离原数据就有一些偏差,只是目前还能接受。如果用海量AI生成数据训练AI,微小的错误会不断累加,最终输出的结果可能会变成胡言乱语。
Ilia Shumailov用预训练模型OPT-125m测试,在测试时,研究人员用大量维基百科文章调校输出结果,然后告诉工具一些文本提示词,让它给出结果,结果又被回传到模型,对原结果进行优化调校。
一次又一次循环,每一次循环都加入了上一次循环的结果,研发人员发现,更新至第九个版本时,模型给出的结果已经没有多少意义。比如,测试时,第一次给出的文本提示与19世纪建筑有关,最后变成了长耳大野兔的分类清单。
实验证明,用AI自己输出的答案训练AI会导致严重后果。一些大企业可能找到了预防崩溃的方法,但是当越来越多的人用大语言模型训练自己的聊天机器人或者其它AI时,恶果仍有可能出现。
生成式AI是如何崩溃的
大语言模型和生成式AI已经出现几十年,只是一直呆在计算机科学实验室里,没有与公众见面。
2022年11月ChatGPT开始向公众开放,之后聊天机器人流行起来。为什么突然火爆?原因很多,比如,硬件更强了,可以并行处理信息;“Transformer”(神经网络的一种类型)出现;存在无数高质量、人类创造的数据点。
Shumailov说:“模型崩溃意味着进入、流出的数据正在消失。”
Shumailov例举一些崩溃出现的原因,比如,当我们向计算机程序解释猫是什么,我们实际上并不知道应该如何解释,于是乎,我们给LLM输入大量关于猫的文字描述,让模型学着定义猫这种生物。
在AI定义的过程中,没有任何监督,也没有什么明确的指示,它只能从一组特定的观察中推断。
推断会存在一些错误。整个过程有点像“电话游戏”,一群人,第一个通过电话传出信息,第二个接收,再用电话传给第三个,直到最后一个,让最后一个将信息说出来。在信息传递过程中会不断出现偏差。
大语言模型也存在这样的缺陷,最终形成“幻觉”。
如果我们用错误的信息训练AI模型,它会影响模型的学习流程,最终破坏模型本身。
AI崩溃有点像近亲繁殖
关于AI崩溃问题,我们可以用近亲繁殖来类比。
每个生物体都有隐性障碍,当我们将不良突变遗传给下一代时,性带来的基因重组会将概率降到最低。如果近亲结婚,不良突变遗传的概率会上升。
AI中其实也存在同样的问题。
每一个AI在神经图谱中都会存在虚假、错误的相关性,错误的链接会导致幻觉,输出有问题的结果。
如果有足够多的人造数据让AI学习,缺陷会少很多。如果用AI生成的数据训练,错误量会大大增加。
实际上,现在的AI还无法画出手和手指,在AI作品中我们经常能看到这种缺陷。
为什么画不出?
因为AI不知道手有5根手指,不知道每根手指的长度是不同的,不知道手指按一定的方向弯曲、移动。
为了弄清楚这些知识,AI需要从大量数据中学习。
可惜,它虽然看到了大量图片,但图片拍自不同的角度,灯光不同,细节精度也不同。有些手指被障碍物挡住了,有时手交织在一起,AI缺少先验知识,不知道哪些数据与哪个身体是匹配的。有时AI看到的还是卡通图,里面的生命体有不同数量的手指。
这还只是很简单的错误,AI如果连这都处理不了,如何辨别更复杂的错误?
如果这些AI输出结果,再用结果训练AI,后果可想而知。
也许模型真的会崩溃,但即使如此,也不意味着AI将会消失,只是它有可能会停止进化,不会变得越来越好。
能否防止崩溃
德州大学AI研究人员刘乐奇(音译:Leqi Liu)认为,所谓的大模型崩溃,就是说它偏离了用于模型训练的原始文本。代表低概率事件的文本消失,这是崩溃的原因之一。
例如,训练后的AI也许可以精准识别有毛的猫,看到无毛的猫却无能为力。
再举个例子,来自少数群体的人表达事物时可能完全不同,此类文本出现的频率会越来越低,最终导致与少数群体有关的数据被淡化。
时间一久,AI生成的内容会放大偏见,给出的结果看起来也更加雷同。
刘乐奇说:“从自然的角度看,当我们表达自己时追求的是多样化,但是当我们持续使用相同的书写助手时,多样化程度会降低。”
为了阻止AI产生偏见、胡言乱语,我们有必要持续追踪所有数据,确保先验知识(包括人类生成的文本)和新知识(AI文本)都被用来训练,简单来说,就是不能单纯只用AI生成数据训练AI。还有一点也要注意,那就是抓取长尾信息。
Shumailov说,企业会严格检查数据漂移现象,所以能早早发现问题并修正,模型崩溃问题可能不会影响到下游用户。如果是个人开发AI模型,他们训练时使用的数据量比较少,难免会被“崩溃”问题困扰,开发者应该对当中的风险保持警觉。
微软:不必担心,我有办法解决
为了解决模型崩溃问题,微软推出代理合成数据发生器Orca-AgentInstruct。
微软认为,Orca-AgentInstruct可以大幅优化模型训练,即使加入大量合成数据,数据中有很多虚构信息,模型也不一定会崩溃。
在此之前,微软已经用合成数据训练Orca和Orca 2两个模型,它们属于小语言模型,训练之后小语言模型的性能不输于更大的模型。
微软的合成数据工厂可以大规模生成多样化、高质量数据。微软指出,合成数据可以加快LLM的研发速度,从各个阶段加速研发。
尽管如此,微软自己也承认,生成高质量数据是很难的事。如果用其它模型生成的数据训练AI,可能会导致模型崩溃。
要想让AI获得成功,既要保证数据质量,也要保证数据多样化。在使用合成数据时,还要用人力挑选,对数据进行过滤。
代理(尤其是多代理)工作流也可以优化数据。
微软认为,在模型训练过程中,代理工作流会变得越来越重要,包括预训练、训练后、专业化,最终可以打造出专门针对模型定制的合成数据工厂,不断优化。
希望科技企业真的能解决此问题。
一些人认为,AI迟早会变成超级智能,如果AI会崩溃,那这种说辞就有点过度乐观。本来人类对AI给予厚望,如果它最终因为吞噬自己制造的废物变得愚蠢,那还真是一个巨大的讽刺。
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,
欢迎私信“投稿”,
添加编辑微信
。
如果您想要获取最新的科技趋势分析、行业内部的独家见解、
定期的互动讨论和知识分享、
与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,
添
加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!
头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
最新文章
CES 2025前瞻:AI无处不在
硬碰硬开局!28家美国实体被列入管制管控名单,1600亿基金再砸硬科技!
惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
WAIC创投生态 | 2025 Future Tech项目路演1月9日名单出炉!
一年亏10亿股价反涨406.45%!国产AI芯片的春天要来了?
OpenAI彻底蜕变!摆脱“非营利”标签束缚或为IPO铺路
2025中关村智能网联汽车创新发展论坛震撼来袭
国产之光刷屏AI圈!DeepSeek-V3成当前最强开源大模型
传ChatGPT将拥有全新“无限”记忆功能?!OpenAI的一篇帖子引热议
2025中关村智能网联汽车创新发展论坛即将开幕!
三分之二产品在用中国芯?美国又针对中国传统芯片下手了
3年半亏损2.5亿,“协作机器人第一股”难当第一
红杉:AI为赚钱发愁 搜索成为热点
人才流失!OpenAI资深研究员、初代GPT缔造者Alec Radford离职
涉及20+实验室,打磨2年!华人小伙儿领衔的开源生成式物理引擎Genesis令人惊叹!
国家电网发布国内首个千亿级多模态电力行业大模型
量子计算哪家强?潘建伟、朱晓波等科学家公布“祖冲之3.0”处理器进展对阵谷歌Willow
不服就干!谷歌重磅新品三连发反击OpenAI玩ChatGPT搜索
月付2000美元!OpenAI CFO称博士级AI要来了,能“替代”人类雇员
新能源+数智化浪潮下 ,信息通信创新如何改变电力行业?
OpenAI长文爆料反击马斯克诉讼:“你不能通过诉讼获得AGI”
不甘示弱!微软祭出小型语言模型Phi-4,在数学竞赛上超过GPT-4o和Gemini1.5
12月20日,上海见|梧桐荟 “产·投·研”沙龙 第6期——芯片级散热技术发展应用与投资机会
Sora试用报告:错误不少,一起找茬
黄仁勋:扫过最多厕所的CEO
“Open AI 12天”上新第4弹:Canvas协作工具正式开放,但实际并没想象中那么好?
刚刚,OpenAI Sora来啦!AI视频新纪元已开启
杨植麟响应仲裁风波,起底人性月之暗面
每月200美金订阅,OpenAI 「十二夜」圈钱忙
大厂小厂肉搏,中国大模型进入淘汰赛
NeurIPS 2024最佳论文!
一图一世界,一飞一菩提
ChatGPT问世2年,我们的世界哪里变了
智能体,大模型进化下一站
从Neuralink开始 美国脑机接口研究迎来春天
绿色氢能,零碳飞行
亚马逊向英伟达芯片发起冲锋
AI将进化超级智能,还是逐步崩坏?
为什么能源需要AI? | 2024能源人工智能创新发展大会圆满举办
AI广告,正在不完美中开创新时代
北京今年最大一笔融资诞生,国产半导体乘风而起
储能沙龙 | 新质生产力与储能行业协同发展及投资机遇沙龙成功举办
蘑菇车联新突破:路侧数据上车,赋能多品牌车辆
具身大模型,国内最大融资诞生
Scaling Law遇阻,AI 性能或难再有大提升
共谋AI未来发展,2024 AI创新应用发展交流会成功举办
AI的尽头,是能源
活动预告 | 梧桐荟 “产·投·研”沙龙 第5期——储能产业专场
120亿独角兽,自主工业品牌变身
电力领域出了一个国际级领先技术
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉