OpenAI首次将多模态能力与新型推理范式相结合

科技   2024-12-11 17:01   北京  

苏霍伊 甲子光年

o1正式版+ChatGPT Pro,奥尔特曼在“挤牙膏”。


作者|苏霍伊

编辑|王博


OpenAI的每次动作都备受瞩目。


昨日其CEO山姆·奥尔特曼(Sam Altman)高调宣布要给大家“整个活”:OpenAI将开启一个为期12天的马拉松式直播活动,内容会包括新品发布和功能更新等,还有一些 “ 圣诞礼物 ”。


OpenAI的活动预告


于是,全世界的科技媒体都沸腾了,即使有时差也挡不住追“科技春晚”的决心。


北京时间12月6日凌晨两点,“12 Days of OpenAI, Day 1”的直播开始,当「甲子光年」通宵达旦拆解这份“大礼”,最后却像剥洋葱般发现,奥尔特曼你“没有心”啊!


轰轰烈烈的预告后,第一天的直播只有14分钟,更像是过往一场大的发布活动直播中抽出来的一节切片,尽管OpenAI发布了更新的模型和产品,也有亮点,但其诚意稍显不足。


业内认为这更像是一场华丽的营销策略,有人调侃:“OpenAI教你如何霸占12天科技新闻头条。”


梳理下来,这次OpenAI主要讲了两件事:


1.推出o1正式版,这是首次将多模态能力与新型推理范式相结合的版本。相比于 o1 preview,它更加智能,响应速度显著提升。目前o1模型已全面上线,API 功能也将在不久后推出。


2.发布了全新专业版套餐——ChatGPT Pro,订阅费用为每月200美元,用户可无限访问OpenAI的模型,包括语音功能。此外,Pro套餐还引入了o1 Pro模式,在数学、科学和编码等挑战性机器学习基准测试中表现更好。





1.o1正式版引入多模态


o1模型的正式版将取代之前的o1-preview版本。

奥尔特曼介绍,o1模型在美国数学邀请赛(AIME 2024)中的准确率达到了83.3%,大幅超越o1-preview的 56.7%和早期的GPT-4o模型的13.4%。


在编程方面,o1模型在CodeForces竞赛中得分为89.0%,而o1-preview为62.0%,GPT-4o仅为11.0%,可以看出o1模型能像熟练程序员一样处理复杂编码任务。

在GPQA Diamond博士级科学问题测试中,这些题目基本是“地狱级”难度,o1甚至超过了人类专家,准确率为78.3%,而人类专家的得分为69.7%。但o1的表现不如o1 preview,这可能是模型性能基于问题类型或可能使用的训练数据有所变化导致的。

新模型在处理速度上也有所改进。与之前版本相比,对简单问题的反应时间减少了。奥尔特曼在演示中提到,新版o1在处理复杂问题时的错误率降低了34%,能根据问题的难易程度调整处理时间。

同时,o1引入了多模态功能,能够处理不同类型的输入和输出。新增了结构化输出和开发者消息功能,增强了模型的交互性和实用性。

在发布会上,o1模型的负责人现场绘制了一个草图,展示了一个用于收集太阳能供应太空数据中心使用的系统。由于太空无法使用水冷系统,所以散热需要依靠一块巨大的散热片。研究员随后询问o1模型,如果需要为这个数据中心提供1吉瓦的电力,需要多大面积的散热片才能保持GPU阵列正常工作。


o1模型对草图进行了准确的识别和理解,经过详尽的分析和计算,并得出结论:需要242万平方米的巨大散热片以满足散热需求。




2.每月200美元的ChatGPT Pro

之前传闻中的“收费较贵”版本,今天也来了。

ChatGPT Pro是一项每月费用为200美元的高级订阅计划,可以为用户提供其最先进模型和工具的无限访问权限。特别包括了对OpenAI o1及o1-mini、GPT-4o和Advanced Voice的全面访问,主要针对最为复杂的计算需求。

ChatGPT Pro的特色之一是引入了o1 pro模式,增加了计算资源投入,让模型在解答困难问题时进行更深入的思考和分析。这项服务主要面向需要进行高级数据分析和处理的科研人员、工程师以及其他专业人士,帮助他们提高工作效率并保持在人工智能技术最前沿。

根据外部专家的评测,o1 pro模式在处理复杂的数据科学、编程和案例分析问题时,能够提供比以往模型更为精确和全面的响应。在进行数学、科学和编程等领域的机器学习基准测试时,o1 pro模式的表现优于o1和o1-preview模型。


为了突出o1 pro模式的主要优势(提高可靠性),OpenAI使用更严格的评估设置:只有当模型在四次尝试中有四次能够正确回答问题(“4/4 可靠性”),才被认为解决了问题。


好像大家都要圣诞节之前“赶工”一样,Google Deepmind也于昨日放大招,发布了最新基础世界模型Genie 2;Anthrophic也可能会在圣诞前新发布新模型。

新一轮AI模型角斗似乎又要开始了。

接下来还有11天的“盲盒”待开,之前已有网友猜测可能会发布的Sora模型、Dall-e 4等,希望OpenAI能掏出更多、更硬的货出来。

(封面图和文中配图均来自OpenAI)

工信头条
工信头条为《中国工业和信息化》(中国电子信息产业发展研究院主办)的公众号,一贯秉承“思想才是力量之源”的理念,坚持“探究转型之道,求解变革之理”的宗旨,致力服务于中国制造业,精心打造高端产经智库媒体。
 最新文章