假如DeepSeek在溧阳参加“天目杯”理论物理竞赛……

政务   2025-01-31 19:45   江苏  





据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用DeepSeek-R1GPT-o1Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。

原文链接:我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果……|内附答案

本次测试通过8段对话完成,第一段为开场白,介绍任务和格式要求。随后依次发送7道题目题干(部分题目含图片描述),AI依次回复,中间无人工反馈。随后,将4个模型的答卷分别发送给7位阅卷人,阅卷方式与“天目杯”竞赛一致。最终汇总所有题目得分,结果如下👇


结果点评

1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。


2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。


3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。


4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。



测试人员表示,AI的思路真的很好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标,但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。另外,AI如同人类,也会出现许多“偶然”错误。比如在模拟测试时Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。
对此你怎么看
快来留言讨论吧


融媒出品 必属精品

源:综合自中科院物理所

排版:黄   洁
责任编辑:葛素佳

值班编委:胡颢允

点亮
转发让更多人知道
↓↓↓

中国溧阳
中共溧阳市委直属事业单位,全市最具权威官方资讯平台!传播党声,传递靓溧,有温度,有品质。
 最新文章