o1模型在编程领域的能力已经达到了令人惊叹的水平,它不仅能够快速生成复杂的代码,还在智商测试中取得了优异的成绩。
来自加州大学欧文分校(UCI)的物理学博士Kyle Kabasares,在测试o1模型后发现,他花费一年时间编写的博士论文代码,o1模型竟然在短短一个小时内就完成了。
论文地址:https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta
o1模型的这一成就,不仅在学术界引起了广泛关注,也在社交媒体上引发了热烈讨论。许多人对AI的这一进步表示惊讶和兴奋。
在智商测试中,o1模型的表现同样出色,它在35个智商题中答对了25道,这一成绩在同类模型中遥遥领先。
然而,这仅仅是o1模型的预览版本。OpenAI的研究人员David Dohan暗示,一个月后,o1模型将有全新的升级版本,届时其性能可能会更加惊人。
物理学博士论文,AI 1小时直出200行代码
2022年,物理学博士Kabasares在「天文物理期刊」发表了一篇关于通过天文数据建模来测量黑洞质量的论文。实现这段代码是Kabasares博士研究的关键突破。o1模型在1小时内给出的Python代码,虽然是基于合成数据,但其功能与Kabasares的实际代码相似,这让他印象深刻。
视频中,Kabasares展示了o1模型在6次提示后完成的200行代码。他也提醒,尽管AI能够生成代码,但还需要人类进行一些额外的工作,比如在其他软件中完成曲线图的绘制。
深夜测试,o1挑战大学、博士物理题
Kabasares还进行了另一项测试,他向o1模型提出了一些天体物理学问题,这些问题都是他在博士期间完成的,并且没有发布到互联网上。在没有训练数据的情况下,o1模型的表现依然出色,有些题目甚至在16秒内就完成了解答。
OpenAI CTO Mira Murati曾表示,未来的新模型将达到博士级别的智能。o1模型目前的表现,已经是这一目标的重要一步。
代码编程赛,大师级别
在Codeforces的实时比赛中,一位名为AryanDLuffy的选手使用了o1-mini模型参加比赛,取得了接近大师级别的成绩。AryanDLuffy表示,他没有进行任何提示工程,仅仅是给出了问题陈述,并告诉模型用C++解题。o1-mini帮助他在超过16万参赛者中排名277,这一成绩远远超过了OpenAI的基准测试结果。
Codeforces的主办方对此表示担忧,并制定了新规,禁止使用各种模型来解决编程竞赛中的问题。但同时,他们允许参赛者使用AI工具进行问题翻译或寻求语法帮助。
在博文中,Codeforces的创始人Mike Mirzayanov将神经网络的进展称为「技术奇迹」,并表示,AI在编程竞赛领域可能会继续取得新的突破。
陶哲轩实测后续
陶哲轩也对o1模型进行了测试,他发现o1在语义搜索方面表现出色,能够提供全面且完美的答案。但他也指出,尽管LLM工具有一定的能力,但在创造性策略方面仍然相当薄弱。
多篇论文阐述o1运作机制,DeepMind上大分
o1模型发布后,AI技术界对其背后的机制和原理进行了广泛讨论。一些专家猜测,o1的主要原理可能来自DeepMind的一篇论文,该论文提出了让LLM进行更多的「测试时计算」,以实现自我提升。
论文地址:https://arxiv.org/abs/2408.03314
此外,HuggingFace的技术主管Philipp Schmid也列出了一些可能与o1模型工作原理相关的论文,这些论文代表了当前领域的前沿进展。
https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8
o1能否实现自我提升
Jim Fan在分析帖中指出,o1模型的关键见解在于训练时和推理时的scaling law,而后者是战胜收益递减的关键因素。他还提到了两篇论文,这些论文探讨了LLM的自我提升能力。
论文地址:https://arxiv.org/abs/2401.10020
这些论文似乎证明了,要想实现LLM的通用自我提升,还需要更多的研究和探索。
我们有几十万私域用户,寻找有创意的AI硬件合作,比如AI玩具、AI眼镜、AI项链等等,与我们建立链接,共同发掘AI时代的红利~