超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

文摘 2024-09-16 18:43 北京

o1模型在编程领域的能力已经达到了令人惊叹的水平，它不仅能够快速生成复杂的代码，还在智商测试中取得了优异的成绩。

来自加州大学欧文分校（UCI）的物理学博士Kyle Kabasares，在测试o1模型后发现，他花费一年时间编写的博士论文代码，o1模型竟然在短短一个小时内就完成了。

Kabasares表示，在经过几次提示后，o1模型便能够创建出一个运行版本的Python代码，这让他感到非常震惊。

论文地址：https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta

o1模型的这一成就，不仅在学术界引起了广泛关注，也在社交媒体上引发了热烈讨论。许多人对AI的这一进步表示惊讶和兴奋。

在智商测试中，o1模型的表现同样出色，它在35个智商题中答对了25道，这一成绩在同类模型中遥遥领先。

然而，这仅仅是o1模型的预览版本。OpenAI的研究人员David Dohan暗示，一个月后，o1模型将有全新的升级版本，届时其性能可能会更加惊人。

物理学博士论文，AI 1小时直出200行代码

2022年，物理学博士Kabasares在「天文物理期刊」发表了一篇关于通过天文数据建模来测量黑洞质量的论文。实现这段代码是Kabasares博士研究的关键突破。o1模型在1小时内给出的Python代码，虽然是基于合成数据，但其功能与Kabasares的实际代码相似，这让他印象深刻。

视频中，Kabasares展示了o1模型在6次提示后完成的200行代码。他也提醒，尽管AI能够生成代码，但还需要人类进行一些额外的工作，比如在其他软件中完成曲线图的绘制。

深夜测试，o1挑战大学、博士物理题

Kabasares还进行了另一项测试，他向o1模型提出了一些天体物理学问题，这些问题都是他在博士期间完成的，并且没有发布到互联网上。在没有训练数据的情况下，o1模型的表现依然出色，有些题目甚至在16秒内就完成了解答。

OpenAI CTO Mira Murati曾表示，未来的新模型将达到博士级别的智能。o1模型目前的表现，已经是这一目标的重要一步。

代码编程赛，大师级别

在Codeforces的实时比赛中，一位名为AryanDLuffy的选手使用了o1-mini模型参加比赛，取得了接近大师级别的成绩。AryanDLuffy表示，他没有进行任何提示工程，仅仅是给出了问题陈述，并告诉模型用C++解题。o1-mini帮助他在超过16万参赛者中排名277，这一成绩远远超过了OpenAI的基准测试结果。

Codeforces的主办方对此表示担忧，并制定了新规，禁止使用各种模型来解决编程竞赛中的问题。但同时，他们允许参赛者使用AI工具进行问题翻译或寻求语法帮助。

在博文中，Codeforces的创始人Mike Mirzayanov将神经网络的进展称为「技术奇迹」，并表示，AI在编程竞赛领域可能会继续取得新的突破。

陶哲轩实测后续

陶哲轩也对o1模型进行了测试，他发现o1在语义搜索方面表现出色，能够提供全面且完美的答案。但他也指出，尽管LLM工具有一定的能力，但在创造性策略方面仍然相当薄弱。

多篇论文阐述o1运作机制，DeepMind上大分

o1模型发布后，AI技术界对其背后的机制和原理进行了广泛讨论。一些专家猜测，o1的主要原理可能来自DeepMind的一篇论文，该论文提出了让LLM进行更多的「测试时计算」，以实现自我提升。

论文地址：https://arxiv.org/abs/2408.03314

此外，HuggingFace的技术主管Philipp Schmid也列出了一些可能与o1模型工作原理相关的论文，这些论文代表了当前领域的前沿进展。

https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8

o1能否实现自我提升

Jim Fan在分析帖中指出，o1模型的关键见解在于训练时和推理时的scaling law，而后者是战胜收益递减的关键因素。他还提到了两篇论文，这些论文探讨了LLM的自我提升能力。

论文地址：https://arxiv.org/abs/2401.10020

这些论文似乎证明了，要想实现LLM的通用自我提升，还需要更多的研究和探索。

我们有几十万私域用户，寻找有创意的AI硬件合作，比如AI玩具、AI眼镜、AI项链等等，与我们建立链接，共同发掘AI时代的红利~

http://mp.weixin.qq.com/s?__biz=MzAxNDMwNjQ1OA==&mid=2650533866&idx=1&sn=c5f1d38bd7775ee2bf0290b1d8607b66

前沿科技分享圈

这里汇聚了人工智能领域奋战在第一线的创业者和投资人，不同研究方向有不同的讨论小组，包括AI虚拟伴侣、AI情感咨询、人形机器人、文生视频、文生音乐、开源AI硬件等等，如果你也对这些领域感兴趣，欢迎加入！

最新文章

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

ControlNet作者新作：AI打光玩得更溜了！细节保留能力远高于SD1.5

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

马斯克要求供应商：把生产业务搬出台湾

特朗普胜出成定局，美国大选如何撕裂整个硅谷科技圈？

Meta VR硬件主管强势加入OpenAI，与苹果传奇设计师合作开发新AI设备

手搓AI大模型应用获25万用户，果断辞职创业，结果收入不如摆摊

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

刚刚！ChatGPT正式成为AI搜索，免费可用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

爱情藏头诗

Copilot一夜杀死编程助手，GitHub官宣接入Claude+Gemini！OpenAI沦为备胎

推出 AI 耳机，字节真正的野心是什么？

从卷文本到卷多模态：国内的大模型公司都在忙什么？

靠AI，2年时间大涨4倍！扒一扒你每天都用的这只小绿鸟

Claude接管人类电脑编程，程序员沸腾！OpenAI反击，智能体大战一触即发

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

天命人闲置的4090，把GPU租赁价格打下来了

这款 AI 眼镜，找到了智能眼镜最好的卖点？

大模型“六小虎”，就要凉凉了

80%的AI公司，即将消失在风中

未来已来？揭秘3D AI女友「EVE」：她如何用亿级语料库征服你的心？

H100 算力价格暴跌 75%，对 AI 创业公司意味什么？

惊爆！H100 GPU租价狂跌至2美元/小时，泡沫破裂的前奏？

两年倒数！Anthropic CEO万字长文预言：「强大AI」26年降临，智力击败诺奖得主

马斯克的“变形金刚”派对：3万美元的Robotaxi闪亮登场，擎天柱现场“端茶送水”，网友：这货能飞吗？

字节豆包AI硬件团队新品OWS AI耳机：耳畔新潮流的引领者

AI革新蛋白质研究：2024年诺贝尔化学奖背后的故事

OpenAI的动荡：高管离职潮与AI领域的未来

靠fork开源代码获350万融资，创始人自诩“开源版Cursor”，网友追着质疑

OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

人均融资1亿美元，一个有故事可讲的AI赛道

超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

外媒评价Plaud Notepin：一款出色的AI录音设备，但前景堪忧

从 OpenAI o1 模型里的 20 多位华人成员，我看到这几个信息

OpenAI草莓模型深夜突袭！理化生达博士生水平，比GPT-4o强多了，ChatGPT可用

Andrej Karpathy最新激进观点：Transformer将超越人脑

大厂卷AI，卷到了小学生身上

机器人把握好手上的力道，安全地做家务有多难？1X人工智能副总裁撰文详解

华人AI视频工具OpusClip获北美风投3000万美元投资，用AI革新视频编辑

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

又一个华人AI产品爆火，60天流量狂飙640万，获a16z 1900万美元投资

OpenAI已投，大厂高管涌入，儿童陪伴正成为AI应用的下一个风口

KT2 功夫龟机器人：智能化生活的助手还是玩具？

芯片巨头裁员15000人！

世界首部生成电影，每次播放都不一样，AI：我剪了52万亿亿个版本

AI伴侣商业化赢家竟是全球第二大成人网站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉