首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

科技 2024-08-28 17:55 北京

来源|新智元

OpenAI的下一代旗舰大语言模型，要来了？

据悉，新模型代号Orion（猎户座），就是能超越GPT-4的下一代模型。

而猎户座的预训练数据，正是由草莓模型生成的。

而草莓模型驱动的聊天机器人，很可能就会在今年秋天上线！

关于OpenAI的草莓，外媒The Information最近又挖到了新的细节。

根据The Information的信息，网友推测：「GPT-4+草莓」会在秋季推出，之后上线的继任者「猎户座」可能就是GPT-5。

由于大概率要避开11月，因此，猎户座的发布时间要么在之前要么是在12月。

甚至，AI大V、Hallid.ai联创「indigo」提出了一个大胆的猜测：猎户座或许不是GPT-5，而是GPT-6。

AI大V「Chubby」表示附议。

最后，Chubby激动地表示：所有人都觉得AI的发展正在放缓？并不是。在大公司，厨房里的东西正在沸腾！

网友们纷纷表示：「我们正在见证一种超越我们自己思想的诞生」。

打开Q*之门，一切模型凭此迭代。

有人担心，如果GPT-5控制整个互联网，人类会从此迷失。

所以，猎户座到底是GPT-5还是GPT-6呢？网友们各持己见。

但有人猜测，我们目前还没有足够的算力来达到GPT-5，更不用说GPT-6了。

透个底，让美国政府安心

此前，关于草莓的传闻早已满天飞。

今年夏天，Sam Altman的团队已经向美国国家安全官员展示了这项技术。

在安全问题日益敏感的情况下，OpenAI的做法也算给大家打了个样。

如果政府官员觉得这项AI不安全怎么办？那就给他们展示一下。

这次演示，就是OpenAI让政策制定者觉得更透明的努力的一部分。毕竟，如果他们感觉到受到这项技术的威胁了，很可能就会给公司带来麻烦。

现在，OpenAI的安全团队已经出走，愤怒的前员工在网上大肆爆料，这种时候，对政府官员更加透明的做法，就显得尤为重要。

The Information表示，这次演示还可能另有目的：跟政府队员就如何保护技术进行对话，以防止美国的AI技术被他国窃取。

说不定，还可以借此机会攻击Meta一波，因为他们的AI是开放权重的，其他国家想要获取，是非常容易的事。

总之，未来几年内，AI开发者应该会经常出现在旧金山和华盛顿之间的航线上了，因为他们时不时就需要跟政府官员来往一下。

草莓：数学提升，能解字谜

一个月前路透社曾报道，OpenAI内部测试了一种AI，在MATH基准上得分超过了90%。

据猜测，这个模型很可能就是草莓。

如今的传言是，今年秋天OpenAI研究者会推出代号为草莓的新AI（也就是之前的Q*），或许会聊天到ChatGPT之类的聊天机器人中。

它能做到目前的聊天机器人无法做到的很多事情，比如解决未曾遇到的数学问题，还能解决编程难题。

在获得额外「思考」时间后，草莓模型还可以回答更主观的问题，比如产品的营销策略。

据悉，在语言任务上，草莓表现出了强大的能力。比如OpenAI的一位员工曾向同事演示了草莓成功解决《纽约时报》的Connections——复杂的文字谜题。

OpenAI在LLM和会话AI领域的领先地位，一直在遭受冲击，因此OpenAI只能对外不时放出点草莓的消息，提升一下自己的存在感。

另外，据说草莓的技术已经显示出了智能体的能力。

草莓模型似乎能够自主浏览网络，像人类研究人员一样，独立上网、进行深度研究。

它不仅能生成答案，还能规划、执行一系列复杂任务，还能收集信息。

与之类似的，还有斯坦福的Quiet-STaR。

就像人类会在说话或写作前会停下来思考自己的想法一样，Quiet-STaR可以训练LLM去生成在复杂推理问题中采取步骤的内部「思考」，从而做出更好的决策。

论文地址：https://arxiv.org/abs/2403.09629

眼下，OpenAI的业务正以惊人的速度增长：跟去年相比，今年它向企业销售LLM和ChatGPT订阅的收入大约增加了三倍，达到了每月2.83亿美元，尽管公司每月的亏损可能高于此。

目前，OpenAI的私人估值为860亿美元。

Sam Altman还希望为公司筹集更多资金，找到减少损失的方法。

自2019年以来，OpenAI已经从微软筹集了约130亿美元，与这家企业软件巨头的协议，会持续到2030年。

合作条款可能会发生变化，包括OpenAI向微软支付租用云服务器以开发AI的方式。

云服务器，是OpenAI最大的成本。

OpenAI的新希望：Orion（猎户座）

但说到底，OpenAI的前景终究还是依赖正在开发的新旗舰——Orion。

有人能解释一下为什么OpenAI、谷歌和亚马逊一直用希腊神话来命名他们的模型吗？

去年初推出后，GPT-4已经被各家赶超得差不多了，现在GPT-4级的模型，可以说是各家人手一个。

有人猜，OpenAI可能会推出一个比原始草莓模型更小、更简化的模型，也就是蒸馏版。

这个版本被寄望于提升GPT-4和ChatGPT性能，目的是保持和更大模型相同的性能水平，而且更易于操作，成本更低。

另外，还有知情人士透露，OpenAI还在用更大的草莓版本，为Orion的训练生成数据。

这种人工合成数据，意味着草莓能帮助OpenAI克服获取高质量数据的限制，从而可以从现实世界数据（比如从互联网获取的文本或图像）中训练新模型。

研究人员表示，使用草莓可以帮助Orion减少幻觉的产生。

这是因为，AI模型是从训练数据中学习的，所以它们看到的复杂推理的正确示例越多，就越好。

对此，智能体初创公司Minion AI的CEO兼GitHub Copilot前首席架构师Alex Graveley给予了高度厚望。

「想象一个没有幻觉的模型，一个你问它逻辑难题、它第一次就答对了的模型。」

「训练数据中存在较少的歧义，因此它的猜测更少。」

The Information猜测，草莓改进的推理能力，可能会整合到ChatGPT中。这些答案可能会更准确，但也可能更慢。

因此，草莓可能并不适合需要即时即时响应的应用。而在GitHub中修复非关键编码错误，则是理想的选择。

或许，以后的ChatGPT用户，可以根据请求的时间敏感性来切换草莓模型。

Sam Altman在五月的一次活动中曾表示：「我们感觉，为下一个模型准备的数据已经足够」。

这个模型，很可能指的是就Orion。Altman表示：「我们进行了各种实验，包括生成合成数据。」

解决复杂数学问题：有前景的应用

如果说目前AI最有前景的应用，那解决复杂数学问题，必然是其中一个了。

毕竟，现有的AI在数学密集的领域如航空航天和结构工程中，表现实在不佳。

各种LLM在回答数学问题时，往往会给出各种让人啼笑皆非的答案。

而且，数学推理能力的提升还能帮助AI模型更好地推理会话查询，比如用户的服务请求。

谷歌和一些初创公司，也在这方面发力。

上个月，谷歌DeepMind开发的AI，已经能在国际数学奥林匹克竞赛中击败大多数人类参赛者。

OpenAI的另一大竞争对手Anthropic祭出的最新模型，也能编写更复杂的软件代码，还能回答有关图表和图形的问题，这些都要归功于它推理能力的改进。

还有一些初创公司为了提高模型的推理能力，采用了一种廉价的技巧，将问题分解为更小的步骤，尽管这些方法速度慢且成本高昂。

无论Strawberry是否会作为产品推出，人们对Orion的期望都不会低了，因为OpenAI会力求继续保持领先地位，同时还要保证显著的的收入增长。

OpenAI的领先者优势，已经不明显了。

虽然在5月宣布了「Her」的版本，但谷歌却抢先推出了AI驱动的语音助手，后者也足够灵活，还能处理用户的打断，和突然变化的话题。

而Lmsys Chatbot Arena等大模型排行榜上，谷歌、xAI、Anthropic和Meta的模型也都在赶上OpenAI的步伐。

Ilya看到了什么？

值得一提的是，「草莓之父」，其实就是已经离职了的OpenAI的首席科学家Ilya Sutskever。

几年前，Ilya启动了一个项目，在研究过程中，诞生了草莓。

而在Ilya离职之前，OpenAI的研究人员Jakub Pachocki和Szymon Sidor，就已经在Ilya的工作基础上开发了一个新的数学求解模型Q*，这让不少关注AI安全的研究人员感到担忧。

另外，在去年Q*的前期准备中，OpenAI研究人员开发了一种被称为「测试时计算」的概念变体，目的是提升LLM的问题解决能力。

这样，LLM就会花更多时间考虑被要求执行的命令，或问题的各个部分。

当时，Ilya发表了一篇与这项工作相关的博客。

博客地址：https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/

在博客中，模型解决了数个有难度的数学问题。

比如在这道有挑战性的三角函数题中，需要连续应用几个并不明显的等式。

在这道题，GPT-4成功执行了一系列复杂的多项式分解。

步骤5中使用的Sophie-Germain恒等式是重要的一步，可以被认为极有洞察力。

在这道题的步骤7和8中，GPT-4开始执行猜测和检查。

这也是模型可能产生幻觉的常见情况，LLM会声称某个特定的猜测是成功的，但实际上并不成功。

在这种情况下，奖励模型会验证每个步骤，并确定思路是否正确。

在最后这道题中，模型成功地应用了多个三角恒等式，来简化了表达式。

或许，我们能从中窥见草莓和Orion的端倪。

参考资料：

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=epv9gi

https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=epv9gi

http://mp.weixin.qq.com/s?__biz=MzkyMDU5OTAyNg==&mid=2247490185&idx=2&sn=9449e9c2ff8f369160141b6accc13932

围绕生成式AI技术的交流社区，与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践，助力企业的数字化转型

最新文章

中美之外，谁还能在AI竞争中占领制高点？迪拜与新加坡的契机

Blackwell与FP4精度：AI量化浪潮中推动端侧发展的“双子星”

OpenAI：AGI共5层，我们现在在第2层

吴恩达：《State of AI report》展现2024的主要趋势和突破（二）

OpenAI 推出了 Canvas 和 SearchGPT

英伟达 GPU 架构：演进与模型推理速度的深度关联

吴恩达：《State of AI report》展现2024的主要趋势和突破（一）

模型剪枝，如何把模型的使用成本降下来？

AI Agent智能数字员工解决案例

MemoRAG：重新定义长期记忆的AI问答模型

从Pre-training Scaling Law到Inference Scaling Law：OpenAI O1模型引领新范式

探秘AIPC软件：云端和本地如何奏响混合乐章

RAG测评关键指标

字节版Sora火爆24小时，同名论文再次被热议

李沐：如果有什么事这一辈子总要试下的，就趁早

曝英特尔被抢投50亿美元！高通求购关口，老伙计火线救场

黑神话热潮，能引发GPU狂欢的才是杀手级应用

o1核心作者MIT演讲：激励AI自我学习，比试图教会AI每一项任务更重要

数据先行 -- Scale AI如何通过AI数据服务成为独角兽

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

解析 Llama-Factory：从微调到推理的架构

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

RAG领域出现技术创新，或将引领AI搜索重大变革？

OpenAI神秘模型「草莓」两周内上线？数学推理暴涨，月收费200刀已有人付费

使用 LlamaIndex 进行 CRAG 开发用来强化检索增强生成

苹果华为新机同日上市，靠谱剧透都在这里了

LLM如何结合知识图谱进行RAG

Windows率先本地文生图，互联iPhone秒传图片，最新AI PC来了！

Blackwell视角揭秘：生成式AI挑战如何重塑GPU芯片的未来版图

大厂不想你有 AI 女友

商汤SenseNova 5.5大模型的应用实践

又有AI创始人卖身大厂！带走25%员工留下空壳，为吴恩达第一位博士生

AI驱动的智能运维：行业案例与挑战解析

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

给RAG开药方：亚马逊发布RAGChecker，专治AI回答不准

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

为什么AI PC需要NPU？

Transformer作者预警：只卖模型玩不过OpenAI！

大模型时代，传统程序员还需要写代码吗？

谷歌搜索引擎全面揭秘！近百份文档泄露，博主爆肝数周逆向工程

AI模型“减肥”风潮：量化究竟带来了什么？

比红杉还猛！7个月投资8家AI公司，智谱为什么投得这么凶？

100%结构化输出——OpenAI新功能大幅增强工具调用

ChatGPT成8岁娃「导师」，外国家长们慌了！

AI模型训练中的双剑侠dd：GPU和CPU的分工

全球首个AI科学家诞生！论文写稿与审稿一起拿下，实现全自动开放式科学发现

Relevance AI：打造一个AI智能体营销团队

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

以小搏大：Salesforce 十亿参数模型表现超过ChatGPT

AI搜索向左，搜索 OG 向右

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉