OpenAI新模型测评:满分通过巴西最难入学考试之一

文化   2024-09-19 10:05   阿根廷  


OpenAI o1人工智能大语言模型满分通过巴西航空理工学院入学考试的数学测试。《圣保罗州报》

【南美侨报网编译段木心9月18日报道】OpenAI公司上周推出了名为“OpenAI o1”的新人工智能(AI)大语言模型。根据巴西人的测评,这款AI模型可以在巴西航空理工学院(ITA)入学考试的数学测试中获得10分满分,并通过圣保罗大学(USP)住院医师考试多个专业的测试。

o1满分通过巴西最难入学考试之一的数学测试

巴西《圣保罗州报》9月17日报道,OpenAI称,o1具有逻辑推理和数学运算能力,能处理更复杂的问题。如今,这款AI模型正在世界各地接受专家和研究人员的测试。

在巴西,企业家维尼修斯·苏亚雷斯(Vinícius Soares)使用巴西航空理工学院2024年入学考试中的数学试卷对o1进行了测试,这一考试历来被视为巴西最难入学考试。最终,o1凭借其解决复杂数学问题的能力取得了10分满分的优异成绩。

不过,与ChatGPT的快速响应不同,o1需要更多的处理时间来评估现有数据,并寻找不同的方法得出答案,这一点也体现在苏亚雷斯进行的测试实验中。

苏亚雷斯认为,o1有潜力彻底改变多个领域的发展。他提到,在教育领域,该AI模型可用于生成新的问题并给出解题方案,帮助学生准备航空理工学院等高校的入学考试;在法律领域,o1还可以分析数千个诉讼,以识别其中的模式和趋势,帮助辩方寻找赢得官司的最佳辩护方案。

o1在巴西医疗领域考试中的表现优于“前辈”

不仅如此,o1在医疗领域的表现也令人惊叹。巴西医学教育和数字健康医学专家马修斯·费雷拉(Matheus Ferreira)使用2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示,即便没有图像分析能力,o1也能达到82%的准确率,超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet,后两者的准确率皆为76%。

值得一提的是,由于o1在处理图像方面的限制,完全依赖于图像分析的问题被排除在本次试验之外,但仍保留了题干中配有图像的其他问题。

费雷拉指出,在测试过程中,o1最主要的问题是反应时间过长。相比较而言,GPT-4和Claude 3.5几乎能立刻作答,而o1在面对一些问题时,需要“思考”大约100秒。尽管如此,事实证明,o1的答案更加可信,正确回答了93个问题,而另外两个AI模型只答对了85个。

不过,费雷拉强调,在预防医学专业的测试中,三个AI模型的表现都不尽如人意。他认为,主要原因在于训练三个模型的数据库内容大多是英文,而预防医学涉及很多区域性知识,例如巴西的立法和统一卫生系统(SUS)等相关问题。


拉美华人在线
我们是“拉美华人在线”立足拉美,面向全球华人的公众号。每天为大家带来国内外优质资讯,深度好文,带你以华人视角,了解拉美,了解世界!
 最新文章