大模型能力分水岭数学考试，文心一言超gpt4o排名第一

文摘 2024-06-25 17:53 湖北

❝
2024年全国高考成绩陆续放榜，各位考生的成绩怎么样？在本次考试中还有几位特殊的考生——国内外知名的9个AI大模型也“参与”了本次高考，它们的成绩可谓也是“几家欢喜，几家愁”。

以河北省录取分数线（文科一本线：521分，理科一本线：511分）为标准，前段时间吹得飞起的的Kimi，文科理科均未过线，排名倒数。其他AI考生中，文科过一本线的有：GPT-4o-562分, 文心一言4.0-537.5分，百小应卡线521分；理科成绩上，文心一言排名第一，但和文科成绩相比还是有差距。

为什么文理科成绩之间有这么大的差距呢？

AI通过大量文本数据训练，已经可以将人类的语言习惯和思维模式学习到一定程度进而整理语言输出自己的观点，应对语言类考试可以说是“得心应手”，而理科考试中包含着大量的公式、数据和图表，这些信息AI要经过复杂的计算和推理来分析得出结果，这就需要AI模型具有强大的多模态识图能力——将多种模态的信息进行处理理解分析的能力，以及逻辑推理能力——对信息进行分析、推理、归纳、演绎的能力，这两个能力的欠缺也正是目前大部分AI模型的短板所在，因此在理科考试中各大AI模型就有点“捉襟见肘”了。

下面我们来从理科中最具代表性的数学考试情况中具体来看：

从总分来看，在第一次测试中理科状元文心一言4.0以总分66的得分超过得分62分的GPT-4.0位列第一；从得分详情来看，文心一言的单选题正确率在60%以上，多选题更是全部正确，虽然在填空题上发挥欠佳，但从整体而言，文心一言发挥较为稳定，跨模态识图与逻辑分析能力已经可见一斑，表现甚至优于国外的GPT-4o。综合来看，文心一言已经凭借着其出色的跨模态识图和逻辑分析能力走在行业前列。

结语

本次AI大模型做高考题也让我们意识到未来AI大模型的发展更应该将重点放在提高多模态识图能力以及逻辑推理能力上。

高考作为一项全面评估学生综合素质的大考，不仅要求学生掌握扎实的学科知识，还要求学生能够掌握知识之间的联系并合理运用。同样地，AI大模型的诞生是为了帮助人类更加便捷地解决生活中各个领域的问题，为了实现这个目的AI大模型也要不断提高自身的多模态识图能力和逻辑推理能力，以更好地适应生活中不同领域的情景和需求。

AI小智

AI认知架构师，让我们一起用AI改变世界！

最新文章

LangChain 2024年人工智能发展报告

《一书解决几乎所有机器学习问题》.PDF下载

AI 打工我躺平｜大厂前端摸鱼指南

大模型面试实战！Prompt调优

改个名字，数倍提升Function Calling准确率！

如何生成Function Calling微调数据？

又一本开源免费的大模型书来了，449页pdf！

作为开发者，我如何提高任务型大模型应用的响应性能

总算有人把智能体记忆说清楚了

军用大模型现世，AI战争新时代

AI创造者计划,通义开启电影创作新时代

探索LLM推理全阶段的JSON格式输出限制方法

小米SU7智能举报不用等，我用智谱的GLM-4-Plus搞定了！

AI最大的应用是什么，如何成为初代AGI产品经理？

光与AI：视障玩家的《黑神话：悟空》挑战

必须为孩子存下来的提示词，像玩黑神话游戏一样学习

LangChain百万代码全解析：这个模型胃口很大！

可信Agent构建之道：AI如何重塑工作流？

AI界的新宠：揭秘Llama 3.1如何革新AI合成技术

LLM工具调用破局：Few-shot Prompting

如何改进Agents的推理与规划?

Agent智能体？我们要的到底是什么

难倒吴恩达的LLM评估，有解吗？

全新发布：LangGraph开启认知架构新纪元

探索GLM4-ALLTools：全能AI工具箱，释放开发者潜能

大模型能力分水岭数学考试，文心一言超gpt4o排名第一

吴恩达揭秘：编程Agent如何革新软件开发行业

全网爆火的AI狼人杀：开源了

Hugging Face全面拥抱LangChain：全新官方合作包

无需魔法,无需插件,国内网络即刻愉快的使用搭载GPT4的Newbing!

AI办公自动化｜使用New Bing和Python实现Word转Excel

无网络限制人人可用的ChatGPT-Claude

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉