研究人员向 GPT-4 Turbo 提出了一些技术性历史问题,其中不少得到了错误回答。例如,当被问及古埃及某一时期是否存在鳞甲时,模型给出的答案是肯定的,但实际上这种技术直到 1500 年后才出现在埃及。此外,针对古埃及是否拥有专业的常备军的问题,虽然正确答案是否定的,模型却错误地回答“有”,可能是因为其他古代帝国(如波斯)拥有常备军的广泛信息对模型推断产生了误导。德尔里奥-查诺纳进一步解释:“当模型从大量重复的显著数据中学习时,很容易忽略那些更稀少或不突出的信息。如果你听到 A 和 B 100 次,却只听到 C 1 次,那么回答关于 C 的问题时,很可能会基于 A 和 B 进行推测。”