2024年全国高考高考作文题目出炉,刚好最近AI大模型很火,我们就来看看AI怎么写的?
刚好最近发现魔搭上线了一个大模型竞技场,在里面可以自定义选择模型,两两PK,目前已经提供了27个大模型供你选择,基本上涵盖了绝大多数的有自己独到之处的大模型,刚刚上线的Qwen2也在其中,像Meta的Llama3,智谱的GLM4等应有尽有。
我们用今年高考语文作文题目来测试一下,就选新课标一卷关于AI的试题,让AI来回答AI相关的问题,非常的合理。
输入进去的匿名对战就是这样的,两边都根据题目写了作文。
这是左边写的作文:
这是右边的:
高下立判,因为右边的这个大模型写出来的字数一看就不够800,果然才600多字。
左边的大模型我觉得生成的内容很有条理,且每一部分足够的丰富,右边的内容太过散碎。
投完票之后就可以看到模型的名字了,这一轮是OpenLLM这个模型胜过了dbrx-instruct这个模型。
另一种需要你手动选定两个模型,然后出题考察。
鉴于Qwen2刚刚发布且报告中的数据非常亮眼,我们可以选择Qwen2作为守擂方,打擂方我们分别选择字节的Meta的Llama3、豆包大模型和智谱的GLM4,考核的主要有三个点,分别是字数、切题以及写作水平,后面两个我作为人类裁判。
Qwen2 Vs Llama3
Llama3的中文能力的确不咋地,我都用中文提问了,它照样还是输出英文。
我们微调下prompt再问一次,这次Llama3终于是输出中文了,但是硬伤就是字数才600出头。
从内容角度上来看,我觉得Qwen2的更胜一筹,切题没问题,更重要的是它先辩证的分析了AI之后,将最终的回答返回到人,因为人才是重点,不管是科技亦或是AI,终究是为人服务的。
Qwen2 Vs 豆包大模型
这次选择这个题目,我打算「以一个未来移民到火星的人的角度,用回顾先辈在探索太空上的角度来写」
这次的比拼我觉得两个都写的挺好的,都准确的捕捉到了我的写作出发点。
但要细细比较的话,我喜欢豆包的题目,但我更喜欢Qwen2的结尾,有种特别宏大的感觉。
Qwen2 Vs GLM4
接下来是上海卷的议论文,我是很不喜欢写这个题材。
结果相差有点儿大,GLM4好像没能理解这是一篇作文,你不能列1,2,3这样。
拉到后半部分再看,Qwen2明显是捕捉到了作文需求,分总结构很清晰,论证也很到位;但右边就差强人意了,更像是是科普这个概念。
AI大模型的性能比拼一直比较模糊,用自己的数据集测试,难免被说不公平,用常用的数据集又会陷入到overfitting的自证难题上。
魔搭的大模型竞技场提供的服务非常的简单,就是让你可以任意选择两个大模型,然后你自己去出题,然后评判哪个大模型的答案你更满意。
这是它的访问地址:
https://www.modelscope.cn/studios/opencompass/CompassArena/summary
它有两种玩法,第一种是匿名对战,随机选择两种模型,然后你出题。
总的来说,OpenCompass这个平台真的好玩,针对相同问题,可以很直观的看到两个大模型的输出,特别是一些大模型的特点在这种比较中很突出,非常建议大家多去体验一下。