世界上最智能的语言模型!OpenAI“满血版”o1大模型上线

科技   2024-12-09 11:30   北京  
12月份,对于科技圈而言,注定不平静。
作为AIGC领域先驱级的OpenAI连续放大招,宣布从12月5日起,计划连续12个工作日,每天一场直播,每次发布或演示一项重磅技术或产品。
消息一经公布,全球瞬间沸腾。
然而这家科技领域的卷王,也的确没有让观众失望。
在“12天12场直播”的首秀上,OpenAI直接宣布:最强推理模型o1正式上线,同时还有更强的Pro版本。
OpenAI o1是什么?
OpenAI o1模型是OpenAI官方于9月推出一款的推理大模型(预览版)。
该模型主要通过“思维链”(chain of thought)模式训练,以实现高效的数据训练过程,在各种数学、编程方面大幅超过当时已有的模型。
以国际奥林匹克数学竞赛(International Mathematics Olympiad,IMO)的试卷为例,GPT-4o只能解决其中13%的问题,但OpenAI o1能解决83%的问题,准确度提升十分明显!
这样的成绩在复杂推理任务方面是一个重大进步,代表了AI能力的新水平。
不过,当时的o1模型缺点也很明显。
由于模型尚未完成训练,o1模型推理时间较长。同时无法识别和规避信息污染、犯罪、自残之类的问题,被质疑具备一定的诱导嫌疑。
OpenAI o1模型与o1 preview模型的差异
相较于o1-preview,本次发布的o1正式版模型在运行速度和多模态推理能力(代码、数学和推理等方面)上得到大幅增强
具备更快、更强大的推理能力,也更加擅长编码、数学和写作。
1. 基础能力有所提升,尤其是在编程能力方面
发布会上,Sam Altman再次以模型解决数学竞赛题、编程竞赛题和博士级别的科学问题的能力,来展现新模型的水平。
通过对比,我们可以看到o1要比起o1-preview本身有不少的进步。
2. 响应速度更智能,简单问题响应速度更快
演示现场,研究人员向模型提了一个问题,让其列出公元2世纪罗马帝国的统治者,包含其在位时间和成就。
o1模型花费了大约14秒左右的时间,用来生成标准答案,速度比o1-preview模型提升了60%。
3. 多模态图像识别
o1模型还新增了识别图像的功能。
在演示现场,研究员上传了一张手绘的热力学草图,而o1能够从草图中识别一些具体的数据,并进行了多模态的推理。
此外,还有很多重要的功能处于开发中,如:网页浏览、文件上传、结构化输出、函数调用(function call)、API使用等等。
总之,在多项基准测试中,完整版o1性能提升显著,尤其是在数学、代码、博士级别科学问题中,拿下了当下最优的成绩。
o1对多模态输入和图像理解能力究竟如何?
为了展示多模态输入和推理,研究人员手绘了一张太阳能运作的设计草图,在这个设计里,数据中心靠巨大的太阳能板获取能量,然后靠散热板冷却GPU。
然后研究人员将手绘草图拍照上传到模型后,并提出:这个数据中心功率是一千兆瓦,要让数据中心正常运转,冷却板的最小面积是多少?

原始提示词翻译后如下:
这里展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,提供理由。
你的任务是估算这个托管GPU的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:
1、你如何处理太阳和深空?
2、热力学第一定律如何发挥作用?

需要注意的是,这个问题有两个漏洞。
首先这个问题涉及到运行1吉瓦数据中心所需的冷却面板;其次研究者故意将省略了“冷却板的温度”这个关键参数。
提问者故意提出一个模糊性问题,用来考验模型的处理能力。
仅用十秒左右的时间,模型不仅很好地从参照论文中捕捉到了1吉瓦功率,并根据未具体指定的参数,惊喜地选择了正确的温度范围,最后按照常识把温度设定为室温,迅速算出了冷却板的面积是242万平方米。
这个答案也得到了拥有热力学博士学位的研究者的认证。
从这个演示不难看出,o1在做出一致且合理假设上表现非常优秀,已经具备了相当高的智能水平。
o1是变强了,代价是什么呢?
我们都知道盯着几个评测指标看,其实没什么意思了,人工智能在这条方面的潜力极大,全面超越人类智力上限,基本只是时间问题。
只是o1进步之快,的确有些出人意料。
当然,同样让人意外的是价格。
目前ChatGPT Pro的价格暴涨到每月200美元(约1452元人民币),比ChatGPT Plus贵上10倍。
虽然Plus版也可以用上o1,但目前并未明确提到是否是无限制的。
官方的定义称,o1 pro会使用更多的计算资源进入深入思考,并为“最难的问题提供最好的答案”。OpenAI未来也会给这个订阅档次,添加更多更强大、计算密集型的功能。
那么会有多少用户愿为AI工具每个月付费200美金,以及开放API后又会有哪些特殊功能出现,都值得让我们拭目以待。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

● 腾讯落地全国首个风光储一体化数据中心微电网项目


CDCC
数据中心标准、技术沟通交流平台
 最新文章