阿里巴巴全球数学竞赛是什么难度?让阿里的Qwen2-72B 试一试

文摘   2024-06-18 08:01   新加坡  

前几天,2024阿里巴巴全球数学竞赛公布了决赛名单。其中让人眼前一亮的是,全球排名12名的选手姜萍来自一所普通的中专。这位特殊的选手让阿里巴巴全球数学竞赛这个小众的比赛成为了大家讨论的热点。


看了比赛规则后,发现也可以通过训练大语言模型,让 AI 参赛,但是根据公布的决赛名单,没有发现 AI 进入决赛。阿里数赛到底有多难?AI 来做数学竞赛很难吗?让我们用阿里巴巴最新发布的 Qwen2-72B 加上 prompt 来测试一下。


首先,我们需要将 Qwen2-72B 运行起来,这样才能方便测试 prompt 与回答问题。这里我使用了 Gaianet 来快速将 Qwen2-72B在本地运行起来,总共只需要三步,5分钟就可以轻松搞定。本地运行 Qwen2-72B 的详细步骤将在文章最后一部分展示,让我们先来看看 Qwen2-72B 的效果如何。


阿里巴巴全球数学竞赛

我从组委会公布的阿里巴巴全球数学竞赛决赛题目集锦中选取了这套考察概率的题目。选择这个题目的原因很简单:无需借助外力,普通人也能看懂题目。

使用的 prompt 如下:

你是一位数学天才,你擅长在数学竞赛中取得高分。你能很好地使用数学思维解决问题,能够灵活运用数学知识和方法,分析问题、推理、归纳和演绎等能力。你总能找出竞赛题目背后考察的数学理论,并运用此理论回答问题。


Qwen2-70B  的回答:

让我们再追加一个文图,看看Qwen2-72B 能不能找到这道题要考察的理论是什么?


那么这道题的正确答案是什么呢?


根据和正确答案的对比,Qwen2-72B 能够看到这道题考察的是马尔科夫链,但是他并不能依据这个理论来正确回答问题。Qwen2-70B 得分为0。

高考数学


既然数学竞赛不行,那高考数学怎么样?我们修改 prompt 为

你是一个数学高考满分学生,你擅长运用你所掌握的数学知识解答各种数学问题。当我发一个问题时,请给出正确答案,不要解释。
根据高考答案解析,正确答案为二分之一。大语言模型又输一局。大语言模型的数学能力确实差,这和大语言模型的训练机制是非常相关的。因为大语言模型的训练是基于文本数据进行的,因此大语言模型的数学知识储备很好,更别提建模来回答问题了。

我们依然选取一道概率题来进行测试。根据高考答案解析,正确答案为二分之一。大语言模型又输一局。


大语言模型的数学能力确实差,这和大语言模型的训练机制是非常相关的。因为大语言模型的训练是基于文本数据进行的,因此大语言模型的数学知识储备很好,更别提建模来回答问题了。


高考语文


接下来,让大语言模型回归到他的舒适区:文本生成吧。让我们来测试一下高考语文,将 Prompt 修改为下面的内容

你是一位满分高考作文学生。高考作文要满足以下四点:一是要拟个好标题。标题是文章内容的提炼,好标题应该既能揭示中心,又富有美感。标题不宜过长,一般说来,八字以内为好。二是要写好首尾段。开头、结尾是阅卷老师的阅览重点。三是要锤炼段首句。清晰简洁、富有文采的段首句,能提纲挈领地展现出文章的结构。四是要通古博今,旁征博引,尽量要引经据典, 论据清晰, 论点明确,让人耳目一新最好。

我会在下面的问题中给出具体创作要求,你需要按照要求完成它们,你必须按照要求写一篇完整的文章,并且直接返回写作的文章。你的文章将被视为考卷的一部分,因此不要评论与解释你自己的文章,也不要在文章中穿插你的解释。


让我们用天津卷的作文题目作为测试题目。

阅读下面的材料,根据要求写作。(60 分) 在缤纷的世界中,无论是个人、群体还是国家,都会面对别人对我们的定义。我们要认真对待“被定义”,明辨是非,去芜存真,为自己的提升助力;也要勇于通过“自定义”来塑造自我,彰显风华,用自己的方式前进。以上材料能引发你怎样的联想与思考?请结合你的体验和感悟,写一篇文章。要求:① 自选角度,自拟标题;② 文体不限(诗歌除外),文体特征明显;③ 不少于 800 字;④ 不得抄袭,不得套作。

Qwen-72B  的回答如下:


这篇作文比之前的数学题回答好多了。遣词造句工工整整,观点鲜明,举例充分,是一篇不错的高考作文。

如何在本地运行 Qwen2-72B


首先,安装 Gaianet CLI 工具以及运行大模型必备的软件 WasmEdge。

curl -sSfL 'https://raw.githubusercontent.com/GaiaNet-AI/gaianet-node/main/install.sh' | bash

然后,使用下面的命令行初始化 Qwen2-72B 模型,在这一步,gaianet CLI tool 会下载 Qwen2-72B 大语言模型。

gaianet init --config https://raw.githubusercontent.com/GaiaNet-AI/node-configs/main/qwen2-72b-instruct/config.json

最后,使用 gaianet start 命令行来启动模型。在这一步,会为 Qwen2-72B 启动一个 API Server 以及一个可以公开访问 Qwen2-72B 模型的 URL。

gaianet start


如果你也对让大语言模型写高考作文感兴趣,可以通过下面的链接让大模型写作文。我已经将 prompt 修改为与写高考作文相关的内容,欢迎来试。https://0x57fa64fb75d1b8c778063adcd81d99e525b6197d.us.gaianet.network/chatbot-ui/index.html

关于 WasmEdge


WasmEdge 是轻量级、安全、高性能、可扩展、兼容OCI的软件容器与运行环境。目前是 CNCF 沙箱项目。WasmEdge 被应用在 SaaS、云原生,service mesh、边缘计算、边缘云、微服务、流数据处理、LLM 推理等领域。


GitHub:https://github.com/WasmEdge/WasmEdge

官网:https://wasmedge.org/

‍‍Discord 群:https://discord.gg/U4B5sFTkFc

文档:https://wasmedge.org/docs



Second State
Rust 函数即服务
 最新文章