先测一把之前发表在nature杂志上论文Testing AI on language comprehension tasks reveals insensitivity to underlying meaning的四个基本的文字题:
结果DeepSeek-R1-Lite表现不错,都通过了。
最后让它做一个其实更容易的题目,只是计算上复杂一些,有两个未知数,需要求方程,结果悲剧出现了:算错了,就不停地重复计算,有视频为证。先看一下分析和计算的过程,感觉一步一步分析还挺正确的,那从什么地方开始错的?各位看官来帮它找一下问题:
然后就一直重复计算.......
我让OpenAI o1-mini做一把,结果很顺利,well done
GTP-4o做不出来,Claude 3.5做出来了,结果多了10分钟(居然算出s=3,t-60),Gemini 1.5多了4分钟(完全靠试,过程很乱)。
真有意思?这是大模型的幻觉吗?