卷起来,用AI写高考作文啦

乐活   2024-06-07 13:53   西藏  

2024年全国高考高考作文题目出炉,刚好最近AI大模型很火,我们就来看看AI怎么写的?

刚好最近发现魔搭上线了一个大模型竞技场,在里面可以自定义选择模型,两两PK,目前已经提供了27个大模型供你选择,基本上涵盖了绝大多数的有自己独到之处的大模型,刚刚上线的Qwen2也在其中,像Meta的Llama3,智谱的GLM4等应有尽有。

我们用今年高考语文作文题目来测试一下,就选新课标一卷关于AI的试题,让AI来回答AI相关的问题,非常的合理。

输入进去的匿名对战就是这样的,两边都根据题目写了作文。    

这是左边写的作文:    

这是右边的:    

高下立判,因为右边的这个大模型写出来的字数一看就不够800,果然才600多字。    

左边的大模型我觉得生成的内容很有条理,且每一部分足够的丰富,右边的内容太过散碎。

投完票之后就可以看到模型的名字了,这一轮是OpenLLM这个模型胜过了dbrx-instruct这个模型。         

 

         

 

另一种需要你手动选定两个模型,然后出题考察。    

鉴于Qwen2刚刚发布且报告中的数据非常亮眼,我们可以选择Qwen2作为守擂方,打擂方我们分别选择字节的Meta的Llama3、豆包大模型和智谱的GLM4,考核的主要有三个点,分别是字数、切题以及写作水平,后面两个我作为人类裁判。

Qwen2 Vs Llama3

Llama3的中文能力的确不咋地,我都用中文提问了,它照样还是输出英文。

我们微调下prompt再问一次,这次Llama3终于是输出中文了,但是硬伤就是字数才600出头。    

从内容角度上来看,我觉得Qwen2的更胜一筹,切题没问题,更重要的是它先辩证的分析了AI之后,将最终的回答返回到人,因为人才是重点,不管是科技亦或是AI,终究是为人服务的。

         

 

   

Qwen2 Vs 豆包大模型

这次选择这个题目,我打算「以一个未来移民到火星的人的角度,用回顾先辈在探索太空上的角度来写」

这次的比拼我觉得两个都写的挺好的,都准确的捕捉到了我的写作出发点。    

但要细细比较的话,我喜欢豆包的题目,但我更喜欢Qwen2的结尾,有种特别宏大的感觉。

         

 

Qwen2 Vs GLM4

接下来是上海卷的议论文,我是很不喜欢写这个题材。

结果相差有点儿大,GLM4好像没能理解这是一篇作文,你不能列1,2,3这样。    

拉到后半部分再看,Qwen2明显是捕捉到了作文需求,分总结构很清晰,论证也很到位;但右边就差强人意了,更像是是科普这个概念。

         

 

AI大模型的性能比拼一直比较模糊,用自己的数据集测试,难免被说不公平,用常用的数据集又会陷入到overfitting的自证难题上。

魔搭的大模型竞技场提供的服务非常的简单,就是让你可以任意选择两个大模型,然后你自己去出题,然后评判哪个大模型的答案你更满意。

这是它的访问地址:

https://www.modelscope.cn/studios/opencompass/CompassArena/summary    

它有两种玩法,第一种是匿名对战,随机选择两种模型,然后你出题。

         

 

总的来说,OpenCompass这个平台真的好玩,针对相同问题,可以很直观的看到两个大模型的输出,特别是一些大模型的特点在这种比较中很突出,非常建议大家多去体验一下。    

平凡的平凡
偶然所做。
 最新文章