首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

关于 GPT5 训练失败的思考

科技 2024-09-08 10:00 江苏

作者：姚广

https://zhuanlan.zhihu.com/p/718513570

1. 大模型：AI仍是硅谷的热门话题，但不如去年狂热

硅谷对AI的关注依然持续，但热度有所降低，主要原因是大模型扩展速度的放缓，尤其是训练算力需求的下降。大约3-4周前，谷歌内部在训练Gemini下一代模型（比上一代大10倍，类似GPT-5）时，两次尝试都失败了。这也解释了GPT-5的发布延迟。

目前，硅谷普遍认为，在LLM层面，进一步扩大模型规模变得更加困难，主要是因为：

MOE（混合专家模型）后的后期训练效果不佳，模型难以收敛
数据瓶颈：合成数据的质量远不如互联网搜集的数据

因此，不排除GPT-5继续延期的可能性。

思考一：

在日常使用GPT-4的过程中，我发现其输出在许多场景下已经非常接近“完美”。这里的“完美”并不意味着通用人工智能（AGI）已经实现，而是在现有系统形态下，基于有限的信息给出的回复，已接近理论上应该有的最佳回答。

许多问题之所以没有得到满意的答复，主要是因为输入的信息不足。

思考二：

虽然模型拥有强大的上下文处理能力，在搜索和总结类场景中表现出色，但在复杂推理场景中，我们不能期望现有技术能实现长上下文的复杂推理。

现有模型更像是一种“快速思考”系统，对于涉及多阶推理、前后信息对比、路径探索和经验积累等复杂任务，不应期望其能在内部完成。COT（思维链）的应用实际上表明推理是外部化的，而“慢思考”应通过Agent架构来实现。

思考三：

对于一些问题，比如精确的数学计算，不应期望现有模型直接解决。对人类来说，简单的计算依赖记忆，而稍复杂的计算（如心算）则是一种逻辑推理与记忆的结合过程。因此，大模型使用工具进行计算是合理的解决方案。

思考四：

“压缩即智能”是一个有趣的观点，但人类最高层次的智能，比如物理理论，并不是通过简单的归纳和压缩得出的。压缩是一种归纳方法，例如，如果给大模型提供各种物体自由落体的视频，它可能得出“重的物体下落更快”的错误结论。

真正的智能需要推理、假设和实验支持，而不仅仅依赖于数据压缩和归纳。

总结：

如果现有的大模型无法解决你手头的问题，问题真的是因为模型不够智能吗？还是我们需要的是更好地理解如何利用工具和方法来解决问题，而不是一味追求更大参数的模型？

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型的基本功

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉