首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPT5暂时没戏了

财富 2024-09-13 16:17 北京

//

OpenAI宣布推出其 “o1” AI模型家族。

自从OpenAI于2023年3月推出强大的专有大型语言模型GPT-4（距今已有 18 个月）以来，用户和开发者们一直在猜测，这家引领硅谷乃至全球生成式 AI 热潮的公司何时会推出下一代模型，大家普遍认为这一新版本会被称为 GPT-5。

然而，事实证明，GPT系列暂时被跳过了，取而代之的是一个全新的模型家族。

今天，经过数月的传闻和最近几天愈演愈烈的报道，OpenAI宣布推出了其 “o1” AI模型家族，首先推出的是两个模型：o1-preview和o1-mini。公司表示，这些模型的设计旨在“通过复杂任务的推理，解决比GPT系列更难的问题”。

目前，这两个模型已经向ChatGPT Plus用户开放，但o1-preview每周消息数量限制为30条，o1-mini为50条。

然而，OpenAI也提醒道：“作为早期模型，它尚不具备使ChatGPT实用的许多功能，比如浏览网络获取信息或上传文件和图像。在许多常见情况下，GPT-4o在短期内可能会更为出色。”

根据OpenAI在其API平台网站上的说明，该模型家族在测试阶段只支持“文本，不支持图像”。

1

o1 模型相较于GPT的优势

OpenAI声称，其全新的o1系列特别适合处理科学、医疗和技术等领域中的复杂问题。

OpenAI设想这些模型将被广泛应用于多个领域：从帮助物理学家生成量子光学的数学公式，到协助医疗研究人员为细胞测序数据做注释。

开发者也发现，o1-mini模型在构建和执行多步骤工作流、调试代码以及高效解决编程挑战方面表现出色。

2

o1-preview的表现

o1-preview模型设计用来应对具有挑战性的任务，其通过花费更多时间进行思考和优化响应，类似于人类处理复杂问题的方式。

测试显示，这种方法使该模型在物理、化学和生物学等领域的表现接近博士生水平。

此外，o1-preview模型在编程方面表现出色，在Codeforces竞赛中排名超过89%的其他模型，展现了处理多步骤工作流、调试复杂代码和生成精准解决方案的能力。

在国际数学奥林匹克（IMO）预选赛等基准测试中，o1-preview展示了强大的能力，解决了83%的问题，而其前身GPT-4o仅成功解决了13%。

该模型现已向ChatGPT Plus和Team用户开放，企业和教育用户将于下周获得访问权限。开发者也可以通过OpenAI API使用该模型，但需达到API使用 5级的资格，并且最初会有速率限制。

3

o1-mini功能较弱但成本降低80%

与o1-preview同时推出的还有o1-mini模型，这是一种更精简的版本，旨在提供更快且更便宜的推理能力。

虽然o1-mini主要针对编程和STEM任务进行了优化，但在数学和编程方面依然表现出色。

在IMO数学基准测试中，o1-mini得分为70%，几乎与o1-preview的 74% 相当，同时推理成本却显著降低。在编程评估中，它在Codeforces上的Elo 分数为1650，跻身前86%的程序员行列。

与o1-preview相比，o1-mini的价格低80%，适合那些需要推理能力但不需要o1-preview模型广泛知识的开发者和研究人员。

这一具成本效益的解决方案也将向ChatGPT Plus、Team（团队）、Enterprise（企业）和Edu（教育）用户开放，并计划在未来扩展至 ChatGPT免费用户。

4

安全性与安全增强

秉承OpenAI对安全的承诺，o1系列模型采用了一种全新的安全训练方法，提升了模型遵循安全和对齐准则的能力。

OpenAI强调，o1-preview在其最难的越狱测试中取得了令人印象深刻的 84 分，这相比GPT-4o的22分有显著提升。这种在上下文中推理安全规则的能力，使得o1模型在处理不安全的提示时表现更好，能够有效避免生成不当内容。

作为更广泛安全工作的组成部分，OpenAI已与美国和英国的AI安全研究机构达成协议。根据这些合作关系，OpenAI向这些机构提供了o1模型的早期研究版本，以帮助评估和测试未来的AI系统。

此外，OpenAI的安全工作还包括全面的内部治理，与联邦政府的合作，并通过定期测试、“红队”测试以及公司安全与安保委员会的董事会监督，确保模型的安全性和合规性。

5

OpenAI o1系列的下一步计划

尽管o1-preview和o1-mini模型在推理和解决问题方面表现出色，OpenAI 也承认这仅仅是个开始。

公司计划定期更新和改进这些模型，未来将添加浏览功能、文件和图像上传功能以及函数调用功能，这些功能目前尚未在API版本中提供。

展望未来，OpenAI将继续发展其GPT系列和o1系列，不断拓展AI在各个领域的能力。用户可以期待持续的进步，随着OpenAI努力提升这些模型的实用性和可及性，它们将在不同应用场景中发挥更大作用。（VentureBeat）

一个致力于探索人工智能对商业世界和社会影响的平台。

最新文章

OpenAI正式推出Sora Turbo

OpenAI推出全新O1模型，支持图片上传与分析，同时发布ChatGPT专业版

AWS将多代理编排功能引入Bedrock

人工智能代理入门（下）：自主性、保障措施和陷阱

人工智能代理入门（上）：捕获流程、角色和连接

马斯克与OpenAI分手的复杂内幕

人工智能开启Web4.0时代：互联网将具备自主预测、计划和行动能力

AI如何重塑我们的思维方式？

多智能体将缩短大型语言模型与通用人工智能之间的差距

谷歌将推出接管电脑的人工智能技术

这家公司洞悉了AI商业化的秘密，CEO揭示其秘诀

被马斯克开除的前Twitter CEO，官宣了自己的人工智能创业项目

《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

首个被人工智能重塑的城市

被撕裂的OpenAI

雷朋AI眼镜是目前已知的最佳人工智能硬件

为何开发者们纷纷弃用谷歌Gemini

GPT5暂时没戏了

苹果的AI手机没有任何亮点，难怪巴菲特提前把股票卖了

硅谷风投推荐的2024人工智能创业公司（内含商业模式）

一家AI诊所在伦敦开业了

代币价格大崩溃，人工智能将出现巨大赢家和输家

世界呼叫中心之都陷入AI狂热与恐惧之中

文远知行在最后关头推迟美股IPO

美国无人出租车现在每周提供10万次服务

GPU经济学：如何在“不破产”的情况下训练AI模型

苹果计划推出AI桌面机器人

人工智能的训练数据正在枯竭，合成数据引发巨大争议

马斯克曾考虑收购Character.AI

黑芝麻科技IPO首日暴跌35%

星野海外版—Talkie火爆美国，年轻人可以与川普、马斯克聊天

OpenAI 需马上融资，今年预计巨亏50亿美元

2024年吸引到顶级风投的28家人工智能公司名单

苹果公司将以观察员身份加入OpenAI董事会

Gemini的数据分析能力不像谷歌所宣称的那么好

AI“搬砖王”的崛起

大模型集体“用户焦虑”，豆包能否不靠字节赢一次？

这家眼镜公司成了AI巨头追捧的对象

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

DeepMind推出新型AI，为视频生成音轨和对话

人工智能的负效应：没有大语言模型的语种未来会消亡

MiniMax在海外的AI陪聊产品，爆了！

30万个AI助理，正排队等待召唤

奥特曼围绕OpenAI打造出一个致富帝国

投资人依然愿意为AI搜索引擎付费

当ChatGPT的广东话“讲唔正”：AI 年代，低资源语言是否注定被边缘化？

来看看微软是如何将Windows打造成AI操作系统的

大模型“价格战”开打，给刚入商业化“佳境”的智谱AI提出了新挑战

奥特曼刚对首席科学家伊利亚的离职表示感谢，马上又有一位OpenAI高管辞职了

谷歌I/O 2024刚刚宣布的所有产品

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉