最近Open AI刚刚发布的全新的AI大模型——Open AI O One。 它在推理复杂的任务的时候,可以做到和我们人类一样思考问题并解决问题,确实再一次刷新了我们的认知,让我们一次性看清了未来超越人类智力的AI的能力。它到底有多强,有多离谱? Open AI真的是要么不更新,要么就突然扔出一个王炸级的升级。可能很多人之前在媒体上了解到,Open AI要发布新的草莓大模型,甚至有的人说要发布GPT 5。 很显然,他们这次猜错了。 通过前两天的发布,没看到官方正式命名为这个Open AI O One,但是它的能力确实让人觉得不可思议,尤其是在推理和准确性方面,它做到了对前辈的碾压机的更新。 接下来我介绍一下,这个Open AI O One到底有多厉害,以及它最大价值到底在哪里。 我们先来说下这个O One它的名字的来历吧。 在Open AI官网上没看到它,上面是这么说的:在复杂的推理任务方面,新的模型也是Open AI O One,这是一个重大的质的飞跃,代表着人工智能的全新的水平。所以我们将这个现有的AI模型,它的编码计数器重置为一并将接下来的一系列新模型,命名为Open AI O One。 在逻辑和推理能力方面,在做同一套AIME 2024高智力数学计算题方面,上一代的模型,GPT4的准确性啊,它只有可怜的13.4%左右。 但是这次发布的Open AI O One的预览版,也就是它的最低版本,它的准确率已到达56.7%左右。也就意味着,Open AI O One的最垃圾版本,就已经碾压了上一代Open AI的最强版本。 更何况,还没有公开发布的Open AI O One正式版,它的准确率就直接飙到83.3%左右了。 而且更恐怖的还在后面,在解决处理GPQA,钻石博士级别的科学难题,涵盖了高等化学、物理、生物学等方面,GPT4的准确性只有56.1%左右,这个水平,还没有到达我们人类专业级的水平。 也就是说,上一级的最强AI大模型,它还没到达我们人类专家级别的最高水平,因为我们目前人类最强的水平,准确性是在69.7%左右,但是Open AI O One,它直接干到了78%左右了,比目前人类还聪明。 这就意味着,未来人类很多无法解决的,高难度的数理化问题,都可以让AI帮我们搞定,尤其是在高等化学、物理、生物学方面,AI比我们目前最强的专家团队还厉害,Open AI O One的智力水平和推理能力,已远超我们人类。 可能很多人不理解,为什么Open AI官方会声称这个O One它是一个全新的AI大模型呢? 这主要是因为,它们采用了一套全新的训练方式。 那么如何理解这个全新的推理方式呢? 这就好比两个武林高手,前辈子的通过现有的武林秘籍,也就是现有的知识,和凭借自己的记忆力来拼凑,来练就自己的绝招,帮我解决一些高难度的问题,但是在遇到一些没有,或者是已知的知识库储备的时候,他是没法面对和处理问题的。 但目前这个全新的O One模型,他就不一样了,因为,他不仅已经具备了前辈所有的能力,还会在遇到前所未有,复杂的问题的时候,他会自己跟自己博弈。 也就是变相的没有问题自己制造问题,然后自己解决,这就类似于,顶级玩家中的左右手互搏术,也就是这个CFDPlay RL,新的推理模式,让Open AI O One掌握了全新的思维链策略,从而实现了自我识别,并且能够纠正自己错误的能力. 而不像cloud那样即使错了也死犟,或者直接爱答不理不回复,甚至封号等等。 当然,说了这么多久,还不如我们直接去测试一下他的能力,看他到底有多厉害。 首先第一道题,曾经难倒GPT 4尾乘数的数学难题——维东一不等式,我们来看下他能不能答对。 首先,把这个GPT4改成这个O One,这模型就目前最新的这个Open AI O One,他预览版,切换好以后,然后先把这问题清上传一下,我们来看他能不能解答出来啊。 大家需要稍微思考一下,现在5秒钟过去了,10秒了,还没出来啊,他不会做不出来吧,哎,开始了嘎,直接把这个题给写出来了,他大概用了将近20秒左右思考,才把这个题给写出来啊。 来看一下,他目前是用英文来这个解答的,我们先给他翻译一下,我们来看他有没有答对啊。 在第一个问题里,他直接给出答案了,然后第二个问题,他说简单,所有的数字A1至A N都等于0 才会相等,即每一个A I都等于0的时候,它才会相等。 大家先猜一下它有没有答对,因为这种高难度的数学难题,它要用到高等数学的知识,看到评论区有没有高手的来解答一下,它到底有没有答对,这种难题,我就不乱加评论了. 但是我可以告诉大家答案,这个Open AI O One,它给出答案是正确的,只不过它用时比较长,整个解答过程大概用了20秒左右。 然后接下来说第二道题,这道题就比较有意思了,这也是之前难倒了GPT 4和之前最强的克拉德大模型的推理难题,也就是农夫过河的问题。 我们把这问题给他发过去,就农夫需要把狼还有羊,菜还有自己运到河对岸去,只有农夫能够划船,而且船比较小,除农夫每次只能运一个东西外,还有一个棘手的问题. 就是如果农夫没有看着,羊就会偷吃菜,狼就会吃羊,请按照以下的顺序,选择合理的过河方式,分别是a农夫单独过河,b农夫大郎过河,c农夫大郎过河d农夫大菜过河,然后是e农夫单独返回,f花农夫大郎返回,还有g农夫大洋返回,h花农夫大菜返回,然后后面总共有4个答案,我们来看一下他有没有做对啊。 这次总共只思考7秒钟就解决出来了,他说基于经历了狼,羊和白菜过河的这个问题,农夫需要将所有的物品安全过河,不能让羊和白菜单独在一起,也不能让狼和羊单独在一起,狼在下方,是他给出的分布的解决方法. 第一步先让农夫赶着羊过河,狼让狼农夫单独回来,接着农夫带着狼过河,农夫把羊带回来,然后第五步,就是农夫把这卷心菜砍过河,接着农夫单独回来,最后一步是农夫把这个羊赶过河,他说这样的顺序就确保了,羊永远不会单独和卷心菜待在一起,而且狼也永远不会单独和羊待在一起. 所以他正确答案是选择爱,所以他翻译原文给出答案就是爱,他选的是第二个答案,就是CEBG DEC,回答是正确的,而且他只用了7秒钟就解决出来了,非常快这速度。 现在我们来问他第三个问题,这个问题,也是之前难倒了这个GPT 4的,这个晒衣服的问题,我们来看一下他会不会犯同样的错误,如果我把5件衣服放在太阳底下晒干,需要5个小时才能完全晒干,那么要多长时间才能烘干,30件衣服,我来看下这个问题啊,他是怎么回答的。 这看似我们人类的常识,但是之前最强的GPT 4 o还有cloud都答错了,这个问题他总共思考4秒钟,他我正在思考,如何计算30件衣服,在相同条件下的干燥时间,每件衣服需要5小时,所以30件衣服可能也需要5小时。 将这衣服进行晒干,因为晾晒时间,取决于每件衣服所需的干燥时间,只需要有足够的空间,同时晾晒所有的衣服,那么晾干3件衣服所需时间,和晾干5件衣服时间是相同的,正确答案就是5小时。 这个问题就是我们人类的尝试,但是由于之前的chat GPT 4 o还有cloud,他们之前没有收入这种琐碎的尝试,也没有在互联网上出现这种问题,所以之前的chat GPT还是cloud,他们都没有答对。 这就是我们之前说到的,像之前的chat GPT 4 o或者是这个cloud,他们所有的知识储备,都是我们人类给到的,要是没有给的话,他就答不出来。 但是全新的O One模型就不一样,即使没有给过的尝试,他也能推理出来,比如,下面再拿一道更难的推理题来试一下,看他能不能答对。 如果三人入住价格为30美元的酒店,则每年贡献10美金,后来酒店经理意识到搞错了,房间的价格应该是25美金,然后经理给了服务员5美元,并要求他退还给客人。 然而服务员保留了两美元,并给每位客人一美元,那么相当于现在每位客人支付了,9美元总计是27美元,服务员支付了两美元,总共赚了29美元,那么丢失的一美元去哪里了啊,这个问题看起来就头大呀,我们来看下他是怎么回答的。 他总共思考了这个,用时9秒钟左右,这是一个经典的数学谜题,表面上看似有一个丢失的一美元,其实是因为计算方式出现了问题,他最初支付三位客人,一共支付了30美元,每人10美元,但是实际房价应该是25美元,退款之后,经理拿出5美元,让这服务员退还给客人。 因为服务员的行为私自留下两美元,并且只给每位客人退了一美元,总共退了3美元,那相当于客人实际支付,由原先支付了10美元,退回一美元后,实际支付了9美元,总共支付至27美元,然后服务生拿走金额两美元,就相当于少了一美元。 他说,问题出现在第六步和第七步的计算上,将每个客人支付的27美元,加上服务生的两美元,得到29美元,看似似乎少了一美元,但实际上这种加法是错误的,问题就出在,第六步和第七步的计算问题上。 他正确的计算方式应该是这样的啊,因为客人支付的27美元中,已经包含了服务生私自留下的两美元,然后27美元等于25美元,酒店得到的加价,两美元服务生私自留下的。 但是出水的30美元可以这样翻倍,25美元给了酒店,两美元给了服务生,3美元退还给客人,这样的话总计是30美元就没错了,他因此并没有丢失一美元,错误就在于将客人实际支付的27美元。 和服务生拿出的两美元相加,这是重复计算的,这样的话就没错了,就退还给客人3美元,加上服务生两美元,再加上酒店得到25美元,就得到最初出售的30美元就没错了,所以他给出的答案是,没有丢失的一美元,是计算错误导致的,这种错觉,看似非常out的问题,他最终还是理清了,并给出正确答案。 由此可见,这个Open AI O One,确实是非常聪明的,但是根据网上透露的信息,下一代的GPT 5大模型,它比O One还强大60倍。 这什么概念,如真的那样的话,那么AI真的可能把我们人类,推进一个无法预测的未来,不知道到底是福还是祸,但是这种局面终究还是会来临。 目前我们已经可以看到的是,AI现在已经抢了大多数普通技术人员的工作,未来一些高等的科技行业,也会大量充斥着AI的身影。