AI 评测:腾讯元宝、豆包、智谱清言,哪家AI最懂古诗词文化?

科技   2024-09-08 00:00   安徽  

点击上方蓝色字「大全Prompter」>右上角...>设为星标

大家好,我是大全,90 后宝爸,BAT 大厂架构师,专注于输出 AI 入门 + AI 提示词内容,全国最大 AI 俱乐部教练,关注我一起进步。

腾讯、字节跳动、智谱华章都号称自己是最懂中文及中华文化的专家。这一点也确实是我们中文大型模型应当在国外模型面前展现绝对优势的关键所在。

毕竟,华夏文明绵延不绝,中文承载着悠久的历史,我国作为掌握最丰富中文及文化资源的大国,所训练的语言模型(LLM)在这一领域理应展现出非凡的强大实力。

因此,今天我们就来尝试研究对比一下腾讯元宝、字节豆包、智谱清言这三家AIGC在古诗词文化上的理解深度和具体表现。

我抛出了一个比较宽泛的,具有浓烈中国文化的典型问题:

“中国古诗词赏析大师应该具备哪些重要能力?”


我们先看看腾讯元宝的回答,它竟然搜索了网络,引用了10篇资料作为参考,回答得非常简单,感觉没有什么深度。

再来看看豆包的回答,内容就非常丰富。维度很多,描述也更加详细。但是呢,你又会感觉到有点太过全面和啰嗦,重点不是很突出,尤其是最后的深入考证、不断学习,感觉有点泛泛而谈了。

智谱清言的回答,相对来讲算是维度全面,语言精炼,要点突出,点到为止。但非常遗憾的是,先入为主地带入了一个老师的角色,回答中采用了帮助学生的说法。

猜测智谱清言模型默认用的是角色扮演模型,因此在回答时默认使用了老师的角色在回答。

这一点我是比较诧异的。因为在智谱清言的智能体创建中心中,并木有让我们选择角色模型和通用模型的说法。反而是豆包,在创建智能体时明确会让你选择模型类型。

如果这里谈到的角色扮演模型和通用模型,你不太理解,说明你对LLM大语言模型的常见原理和应用形态还不清楚,需要补一补AIGC的基础知识啦。请一定看到最后,有解决办法。


以上测试,已经反映出针对“中国古诗词赏析大师应该具备哪些重要能力?”这种开放性问题,三家大模型在问题理解、预测生成的详细程度以及回答时的人设角色上都有区别。

LLM的核心在于其能够捕捉文本中隐藏的规律,并通过这些规律来预测下一个词或短语,从而生成连贯的文本或回答问题。意味着在输入层、隐藏层和输出层上都有各自的特色。



因此,我们继续尝试具象化问题,收敛模型的预测生成路径消除模型在隐藏层的随机扩散

问题进一步修正为:

作为一名中国古诗词赏析大师,需要指导一名画家,针对诗词创作对应的画作。这位大师应该具备哪些重要能力?

这个问题引入了两个角色一位古诗词大师,一位画家。大师需要指导画家为诗词创作画作。这就考验大模型对此的理解深度了!

另外,最后一句话用了“这位大师”作为指代,考验大模型对这个指代对象的判定是否精准!

还是先看元宝的回答,答案还是那么的简洁。又联网了,引用了4篇资料。

第一:为什么要联网呢?

第二:大家看看这几个能力够吗?

如果你还没有反应过来,请继续看另外两个模型的回答就恍然大悟了。


豆包的回答一如既往的超级全面,非常详细。可以看出融入了表达和沟通能力方面的要求,这是相当可圈可点的。说明对“大师指导画家”这个描述的理解是很到位的。

这轮PK中,智谱清言一如既往的要点全面,语言精炼。沟通表达也是覆盖到了的。


对比这几家AIGC的回答,可以明显看出这几家大模型的特点:

  • 智谱更加偏向于指导型,要点全面但是点到为止,具体该怎么做,需要你自己去思考。

  • 豆包更加偏向于教练型,不但完整的罗列了要点,详细告诉你应该有什么能力,还给了具体示例让你理解如何去做到!

  • 那元宝呢?元宝根本没有提到沟通和表达能力!而且,大家注意到没有?元宝在回答这个问题时竟然联网查询了内容,基于查询结果给出的答案!古诗词的阅读理解能力,难道元宝没有训练过吗?还需要联网查询吗?智谱和豆包都是直接回答的。我猜测这是产品的问题!明明是模型可以直接回答的问题,却被产品设计带偏了,竟然去走了联网查询的路。




最后,我们来考察一下这三个模型中文书写的能力。

我的写作水平很一般,我自己手敲的原文是这样的:

腾讯、字节、智谱华章都号称最懂中文和中文文化,这也是我们中文大模型应该秒杀国外大模型的重要一点!毕竟华夏文化源远流长,中文历史悠远流长,我们中国是拥有最全中文及文化资料的超级大国,训练出来的LLM在这方面应该是超级强大才对

以上黄色标记的部分是我自己都觉得写得不好的地方,毕竟自己作为工科男,语文是我的短板啊(捂脸)。

那么就来看看三家中文专家模型会怎样改写我的内容吧。

腾讯元宝的改写结果:

腾讯、字节跳动和智谱华章都自诩为中文及中华文化的深刻理解者,这一点也是我们的中文大型语言模型在国际竞争中应占据优势的关键因素毕竟中华文化底蕴深厚,中文历史源远流长,作为拥有最丰富中文资源和文化资料的泱泱大国,我们培育出的大型语言模型(LLM)在这方面理应展现出强大的实力。

黄色部分我觉得有点太文绉绉了。红色部分我觉得改写得很优秀。点赞增加了“毕竟”这个词汇用来承上启下过渡。

字节豆包的改写结果:

腾讯、字节、智谱华章皆宣称对中文及中文文化有着极为深刻的理解。这一点,确实是我们中文大模型能够超越国外大模型的关键要素之一。华夏文化源远流长,中文历史悠久绵长。中国作为拥有最为完备的中文及文化资料的国家,训练出的大语言模型在这方面理应具备超强的实力。

还是一样,黄色太过于书面化,绿色根本没有改写,这句跟前一句有重复,应该改写才对!两家的改写结果的结尾部分都出现了“理应”这个词。有点意思,看来“理应”这个词汇在这两家的模型中都学习了太多次,导致该词汇的权重过高

智谱清言的改写结果:

腾讯、字节跳动、智谱华章均自诩为深谙中文及中华文化的专家,这正是我们中文大型模型应当在国外模型面前展现绝对优势的关键所在毕竟华夏文明绵延不绝,中文承载着悠久的历史,我国作为掌握最丰富中文及文化资源大国,所训练的语言模型(LLM)在这一领域理应展现出非凡的强大实力

可以明显看到,智谱清言的中文改写是最满意的。红色部分我觉得都改写得很不错!深谙某某某的专家、展现绝对优势、延绵不绝、悠久的历史、大国、非凡的强大实力。这些表达,我认为很有中文水平,也挺符合我原始内容的行文风格。大家觉得呢?

但是这个“自诩为”是有点太那个啥了吧?反正我自己手写的话是不会用这个词汇的!

智谱清言也用了“毕竟”这个词汇来进行承上启下过渡,跟豆包一样!这是一个有意思的发现!

为什么呢?因为豆包没有呀。说明什么呢?可以简单理解为,元宝和清言,在中文表达的段落结构,段落间的过渡,这个方面,学习得更加到位。

于是我们可以猜测,在并列、递进、转折、因果等段落间关系方面,元宝和清言的输出会让行文阅读得更加流畅。(但是请注意大模型是不懂这些段落间关系的哟!这是我们人类的智慧,LLM并非理解型模型,它的很多表现是不可解释的。如果不理解这句话请一定看到最后,有解决办法



希望通过这个测试,让大家对三家模型的表现有一个直观的深刻的认识,便于后面在做不同事情时选择最合适的AIGC产品,一招搞定,不浪费时间。

国内现在的大模型是百花齐放,百家争鸣,各有不同的强项和弱势。这个就像汽车行业一样,几十个品牌上百款车型供您选择。各有各的不同。

在我看来,AI2.0 时代的各家 AIGC 产品,就跟不同型号的高端车一样,而且全都是豪车,性能非常强劲,配置都很高端。但是好多人在使用的时候都搞错了,不是觉得答非所问,就是觉得一问一答好简单。

其实,选哪辆豪车好呢?该怎么去操控它呢?怎么才能得心应手呢?如何才能达到人车合一的境界呢?这里面都是有很多很多的学问和技巧的。

为了让大家能够熟练驾驭AIGC这辆超级座驾,我特别开设了“AIGC赛车手训练营”

在这里,我将全方位解析AIGC豪车的内部构造、运作机制、基本驾驶技巧、进阶操作方法、驾驶模式切换、高级手动驾驶技巧、精准倒车入库、平稳坡道起步、极限高速漂移、日常维护保养以及常见故障处理等各方面的知识技能。

深入讲解并结合实战训练,助您成长为顶尖的AIGC赛车手!实现与AIGC的完美融合,让AIGC成为您在职场、学业、生活、事业发展中的高效加速引擎,助您在AI2.0时代变革中实现卓越成就,铸就辉煌成功。

如果想成为AIGC赛车手,欢迎加我微信咨询哟。请备注“AIGC赛车手”,我会赠送您几份AIGC的资料,都是我认为非常实用的干货。

订阅下方公众号,回复 免费拉你进 AI 微信学习群,领取价值 999 的神秘 AI 大礼包


大家好,我是大全,90 后宝爸,211 本科法学毕业,大一开始自学编程,北漂 10 年,从小白到架构师,全国最大 AI 俱乐部万人航海教练。

当下是一名 AI 领域创业者,借势 AI 90 天击穿公域,全网涨粉 5万+,总阅读 500万+。

大全的愿景是成为 AI 的布道者,带领 10 万小白入门 AI,让更多的人在大全这里掌握 AI (提示词)的能力,在已经到来的 AI 时代不掉队,不被 AI 淘汰。

扫码免费加入我的 AI 星球,邀请了很多大佬
会分享很多 AI 学习干货,可领价值 1999 AI 学习福利


我就知道你“在看”

大全Prompter
AI 提示词 Prompt、Sora AI视频、Suno AI音乐 领域|5 万 AI 星球读者(合伙人) ,带小白入门 AI|AI 副业变现 | 爱好:读书,拳击,拉丁,厨艺,绘画,户外|
 最新文章