AI新思考：“浴火重生”的草莓模型

文摘科技 2024-09-13 08:25 上海

文｜庞德公

编辑｜郭嘉

“这个模型肯定比我更擅长解决 AP 数学考试，而且我在大学时辅修数学，”OpenAI 的首席研究官鲍勃·麦格鲁（Bob McGrew）告诉我。他说，OpenAI 还根据国际数学奥林匹克竞赛的资格考试对 o1 进行了测试，虽然 GPT-4o 只正确解决了 13% 的问题，但 o1 的得分为 83%。

OpenAI发布名为o1新模型，这是全新“推理”模型系列中的第一个，这些模型经过训练可以比人类更快地回答更复杂的问题。它与o1-mini一起发布，o1-mini是一个更小而且较为便宜的版本。这实际上就是之前炒作的神秘版本“草莓模型”。

o1与以前的模型相比，它在编写代码和解决多步骤问题方面做得更加的出色。但它也比GPT-4o的带来更多的费用。o1目前处于预览版本的状态。

今天开始，ChatGPT Plus和团队用户可以访问o1-preview和o1-mini，企业用户和研究类别的用户将在下周初获得访问权限。OpenAI 表示它计划为 ChatGPT 的所有免费用户提供o1-mini 访问权限，但尚未确定发布日期。

商业使用的收费还是非常昂贵，使用传统的API调用，o1-preview每100万个输入Token收费15美元，每100 个输出令牌收费60美元。相比之下，GPT-4o的成本为每100万个输入Token收费5美元，每 100万个输出Token收费15美元。

背后的意义

o1在针对问题做出响应之前花更多时间思考问题，就像一个人一样。通过培训，他们学会完善自己的思维过程，尝试不同的策略，并认识自身错误。在披露的测试中，它在数学和编码方面表现出色。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。它的编码能力在比赛中得到了评估，并在Codeforces 比赛中达到了第89个百分位。

作为早期模型，它还不具备使 ChatGPT有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o在短期内会更有能力。然而在复杂的推理领域，这是一个重大进步，代表了AI能力的新突破。因此OpenAI将计数器重置回1并将此系列命名为OpenAI o1。

适用场景

o1比较适合科学、编码、数学和类似领域的复杂问题，这些增强的推理功能可能特别有用。例如，医疗保健研究人员可以使用它来注释细胞测序数据，物理学家可以使用它来生成量子光学所需的复杂数学公式，所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

除了考试和学术基准之外，OpenAI还评估人类对o1-preview与GPT-4o在更多广泛领域中的对比。在这项评估中，人类对来自o1-preview和GPT-4o 的提示进行了匿名投票以便于选出他们更喜欢哪种模型。O1-Preview在数据分析、编码和数学等推理密集型类别中比 GPT-4O更受欢迎。但是在某些自然语言任务中，o1-preview不是首选，这表明它并不适合所有用例。

--->更多内容，请移步“鲁班秘笈”！！<---

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486939&idx=1&sn=44c1f7c585b8cac3a894e28bb4b57c52

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉