首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

卷起来，用AI写高考作文啦

乐活 2024-06-07 13:53 西藏

2024年全国高考高考作文题目出炉，刚好最近AI大模型很火，我们就来看看AI怎么写的？

刚好最近发现魔搭上线了一个大模型竞技场，在里面可以自定义选择模型，两两PK，目前已经提供了27个大模型供你选择，基本上涵盖了绝大多数的有自己独到之处的大模型，刚刚上线的Qwen2也在其中，像Meta的Llama3，智谱的GLM4等应有尽有。

我们用今年高考语文作文题目来测试一下，就选新课标一卷关于AI的试题，让AI来回答AI相关的问题，非常的合理。

输入进去的匿名对战就是这样的，两边都根据题目写了作文。

这是左边写的作文：

这是右边的：

高下立判，因为右边的这个大模型写出来的字数一看就不够800，果然才600多字。

左边的大模型我觉得生成的内容很有条理，且每一部分足够的丰富，右边的内容太过散碎。

投完票之后就可以看到模型的名字了，这一轮是OpenLLM这个模型胜过了dbrx-instruct这个模型。

另一种需要你手动选定两个模型，然后出题考察。

鉴于Qwen2刚刚发布且报告中的数据非常亮眼，我们可以选择Qwen2作为守擂方，打擂方我们分别选择字节的Meta的Llama3、豆包大模型和智谱的GLM4，考核的主要有三个点，分别是字数、切题以及写作水平，后面两个我作为人类裁判。

Qwen2 Vs Llama3

Llama3的中文能力的确不咋地，我都用中文提问了，它照样还是输出英文。

我们微调下prompt再问一次，这次Llama3终于是输出中文了，但是硬伤就是字数才600出头。

从内容角度上来看，我觉得Qwen2的更胜一筹，切题没问题，更重要的是它先辩证的分析了AI之后，将最终的回答返回到人，因为人才是重点，不管是科技亦或是AI，终究是为人服务的。

Qwen2 Vs 豆包大模型

这次选择这个题目，我打算「以一个未来移民到火星的人的角度，用回顾先辈在探索太空上的角度来写」

这次的比拼我觉得两个都写的挺好的，都准确的捕捉到了我的写作出发点。

但要细细比较的话，我喜欢豆包的题目，但我更喜欢Qwen2的结尾，有种特别宏大的感觉。

Qwen2 Vs GLM4

接下来是上海卷的议论文，我是很不喜欢写这个题材。

结果相差有点儿大，GLM4好像没能理解这是一篇作文，你不能列1，2，3这样。

拉到后半部分再看，Qwen2明显是捕捉到了作文需求，分总结构很清晰，论证也很到位；但右边就差强人意了，更像是是科普这个概念。

AI大模型的性能比拼一直比较模糊，用自己的数据集测试，难免被说不公平，用常用的数据集又会陷入到overfitting的自证难题上。

魔搭的大模型竞技场提供的服务非常的简单，就是让你可以任意选择两个大模型，然后你自己去出题，然后评判哪个大模型的答案你更满意。

这是它的访问地址：

https://www.modelscope.cn/studios/opencompass/CompassArena/summary

它有两种玩法，第一种是匿名对战，随机选择两种模型，然后你出题。

总的来说，OpenCompass这个平台真的好玩，针对相同问题，可以很直观的看到两个大模型的输出，特别是一些大模型的特点在这种比较中很突出，非常建议大家多去体验一下。

http://mp.weixin.qq.com/s?__biz=MzAwNzMwOTcyNQ==&mid=2455657633&idx=1&sn=a2d0cfa0a3374de59256b143cb61f337

平凡的平凡

偶然所做。

最新文章

你的科研工具箱更新了哪些新工具？

为什么马斯克会觉得大部分学术论文是没用的？

为什么你编写不出优秀的ChatGPT提示词?

「防自学」教材的最大克星，AI工具可以挖出隐藏知识点

为什么有人说「获取学历的速度赶不上学历贬值的速度」？

目前大环境下，去读博是否是个比较好的选择呢？

AI时代还有必要学计算机编程吗？Python是否还是最优选

本科生科研能力的两种路子：有靠山，靠自己，还是做曹原那样的天才？

怎么看待大学里很水的老师？

博士学位，就是一种明码标价的商品，不必神话它

读博期间如何保持科研干劲避免burn out？

计算机是最难的工科吗？

如何理解“英语+一门技能=王炸”？

深度体验Cursor三周后，这3个tips一定要注意

除了ChatGPT，还有哪些好用的AI工具？

普通人如何抓住AI这个风口?

小红书的封闭内容都可以被搜索的到？AI搜索引擎太强悍了

学生该不该买ChatGPT?

暑假后高达一万的天价账单，刺痛了多少“寒门父母”?

LLM大模型的微调原理以及ChatGPT的API微调操作实践

AI 发展真的会让大部分人失业吗？普通人如何用 AI 提升工作效率？

GPT4o被证实有了中度自我意识，那离强人工智能还远吗？

目前AI领域的自媒体怎么赚钱呢？

学历贬值太快，这类学校的研究生就业可能不如本科

AI公司的“养鱼”战术：免费服务背后的长线布局

揭秘国内大厂高薪招聘：顶尖人才争夺战

AI搜索引擎的结果可信度并没有多高

AI写的内容，确实太容易分辨了

用AI写小说可能是下一次风口

为什么AI眼中9.11大于9.9呢？

老外这次是真的惊了，中国版Sora，可灵开放全球测试

别再被AI忽悠了！手把手教你写出杀手级Prompt

为什么全球只有中美能领先AI创新？

如何看待斯坦福大学报告称：中国人对AI态度最为积极

李彦宏：开源模型是智商税？

AI发展到现在，国内大模型行业还有哪些机会？

为什么这波 AI 浪潮没有带来大量的就业岗位

详细教程：自定义大模型之微调ChatGPT

AI搜索引擎，一个普通搜索引擎的二道贩子

AI 时代，高考选什么专业比较有前景？

聊聊姜萍那套题

卷起来，用AI写高考作文啦

AI时代，对于汉语编程来说是危机还是机遇?

如何让大语言模型输出JSON格式？

通义千问2.5发布：开源大模型中文智能程度直逼GPT4

分享10款能够自动生成视频的AI软件

十天能不能写完一篇毕业论文

震撼揭秘：仅需15秒，打造你的声音分身！

用AI视频将旅行世界具象化

FittenCode: 比Github Copilot性能更强，而且免费的AI代码辅助编写工具

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉