提前过年了。
OpenAI昨天在X上发推文,说从12月5日开始,要进行为期十二天的发布会,美国西部时间每天上午十点,每天挤一点点牙膏。
这个配置非常像美国流行的圣诞倒数日历,每天开一个小奖,有一个小惊喜,直到节日来临。
“12天,12场直播,一堆新玩意儿,有大有小”|还说不是圣诞礼盒!
OpenAI CEO萨姆·奥尔特曼(Sam Altman)前几天也在《纽约时报》DealBook峰会上给活动预热。“我们准备了很多新的、很棒的东西,”奥尔特曼说,“在接下来的12个工作日里,我们每天都会发布一个新功能,或者进行一次演示。”
据媒体透露的信息,这12天的发表内容包括之前大火的文本转视频AI Sora的升级版,和ChatGPT的agent版(也就是能处理特定任务的“披皮”ChatGPT),和推理模型o1的完全体。
在此之前,OpenAI好像很久都没有大动作了,距离Sora的第一次亮相已经过去了294天,距离ChatGPT语音版发布已经过去了205天,o1前瞻版的发布也已经是九月的事了。
第一天的内容有这些
今天凌晨,我们围观了12天发布会的第一炮。这个发布会很短,不到二十分钟就结束了。
发布会气氛很轻松随意,像家庭聚会,参与者除了奥尔特曼本人,还包括科学家 Hyung Won Chung(左二),他是o1模型的核心作者,在MIT取得了能源方向的博士学位,目前是OpenAI的研究科学家。右二和右一分别是Max Schwarzer和o1最引人注目的改进“思维链”的提出者Jason Wei。
这场发布会上主要更新的内容有两个:放出o1完全体,推出每月200美元的ChatGPT Pro。ChatGPT Pro可以无限制访问o1完全体。
o1完全体
OpenAI在9月发布了o1前瞻版,跟之前的大模型不一样的是,o1牺牲了速度,展示了思维链,能做更复杂的深度思考。在过去的三个月里,我们一直没有见到o1的完整形态,前瞻版也只能供付费用户使用。现在完全版终于来了。
Max Schwarzer表示,比起前瞻版,o1完整版速度更快,正确率更高,更加智能,不会对每个问题都想老半天。
他说:“我们对这个模型进行了一系列非常详细的人工评估,我们发现,它犯重大错误的次数比o1预览版减少了约34%,同时充分思考的速度却提高了约 50%。 ”
在发布会上他们现场演示了三个例子。
Schwarzer是历史爱好者,他问了o1和o1前瞻版同一个问题,让它们列出公元二世纪的罗马皇帝,讲一下他们的在位年代和功绩。这个问题不难,但是GPT-4o经常给出错误答案。
左侧是o1,右侧是o1前瞻版|OpenAI
在现场的演示中,两个模型都给出了正确答案,但是o1只用了14秒就给出了答案,o1前瞻版用了33秒。
“同样的问题我离线测试了几次,发现o1平均比o1预览版快60%。”Schwarzer说。
第二个例子是Hyung Won Chung演示的多模态功能。
作为热力学博士,Hyung Won Chung手绘了一张在太空里建数据中心的示意图,在这个设计里,数据中心靠巨大的太阳能板获取能量,然后靠散热板冷却GPU。
Hyung Won Chung给o1出的题是,这个数据中心功率是一千兆瓦,要让数据中心正常运转,冷却板的最小面积是多少?
o1发现这个问题里没有说明冷却的温度是多少,它按照常识把温度设定为室温,然后迅速算出了冷却板的面积是242万平方米。
第三个例子是Jason Wei演示的,他让o1找到符合描述的蛋白质。之前的o1前瞻版没法回答这个问题。
Wei给了o1六个标准,每一个标准都需要调用特定领域的化学知识,可能有很多蛋白质符合这些,所以o1需要评估所有候选项,然后对照六个标准一条一条进行检验。
最终o1在53秒后给出了正确答案,还展示了思维过程。
这三个例子分别展示了o1速度上的提升、强大的多模态功能,和深度思考能力的提高。
实测解几何题能力大大提高
我们第一时间用o1完全版做了测试。
先问了一个初中物理题,以下三组中,哪个提起重物所需的力最小?
o1几乎秒给答案,还把思考路径写了出来,详细到能做习题辅导。
第二个是逻辑推理题,需要按照规律填出缺失的数字,令人联想到一些考公题。
这道题o1想了1分41秒,也给出了正确答案,思考过程如下:
在直播的最后,奥尔特曼说,ChatGPT Pro后续还会推出更多功能,比如网页浏览,文件上传,函数调用等,明天的直播内容主要是面对开发者的一些更新。
作者:翻翻、Steed
封面图来源:OpenAI
本文来自果壳,未经授权不得转载.
如有需要请联系sns@guokr.com