【烫手】3个真实场景,GPT-4 依旧完爆Claude3

文摘   科技   2024-03-12 07:15   浙江  

本期《金榜题名》 Claude3


AI工具千万万,真正好用看“金榜”



对比Claude3 免费Sonnet V.S. ChatGPT Plus


为什么不是Claude3 Pro的付费版?原因有2个:

  1. 作为ChatGPT Plus 接近1年的忠实用户,坚信GPT-4的遥遥领先,一直被追赶从未被超越。

  2. 最近刚体验过的数据分析场景,ChatGPT几乎完爆Claude2,所以对Claude3 Pro付费版预期不高。


希望Claude3能有超出预期的表现,毕竟从benchmarks对比看,免费版Sonnet除了第一项大学本科知识、第四项数学知识外,其他从得分上已经和GPT-4不分伯仲,甚至还有得分还高出不少。


补充:Claude3 是Anthropic公司出品的生成式大模型产品,之前在文生文领域行业老二,仅次于大名顶顶的ChatGPT。使用有地域限制,注册要求比较高。后面也会尝试帮大家找一些免费的使用方法。



场景1   数据清洗 - 城市名称 

01

数据清洗 - 城市名称翻译

场景描述:

在日常工作中,常常会遇到数据清洗、数据整理的场景。这次测试案例中,将大量人工输入的城市名称标准化。城市名称中会存在各种复杂的情况,例如中文、英文、大小写、各种空格,拼音,甚至拼音缺少字母,数据颠倒等。


数据(示例)

1. 各种数据异常SHanghai,上海,上海市,Shang Hai,Shangai,Shanghai,上 海,SangHai,Sahnghai等... 

2. 不常见的城市名拼音:Lhasa,拉萨市,Jinghong,景洪市等...


困难分析:

1. 如果仅用代码,正则表达式无法覆盖所有数据异常情况,特别是字母颠倒、字母出错等情况。

2. 针对部分不常见的城市名,如果没有完整的城市名列表,或者更多信息知识,无法快速识别正确的城市名。


期望效果:

  1. 基于GPT-4或者Claude3的文字理解能力,基于城市名的常识信息实现快速的城市名标准化处理。

  2. 具体来说,将各种错误的城市名,修正为正确的城市名。匹配城市名时优先选择中国GDP最高的前100个城市。



【GPT-4 🌟🌟🌟🌟】卫冕者依然优秀


☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 4分

☑️ 处理速度 4分

☑️ 成本(付费) 4


本次仅测试总长度为1200字的城市名称,已经超过了GPT-4的默认token数。GPT-4会自动对数据进行分批处理,并继续完成后续部分。


准确性比较高,但因为进行了分段处理,中间出现数据缺少,需要人工校验一遍。整体1小时内搞定。





【Claude3 🌟🌟🌟🌟】挑战者势均力敌


☑️ 解决核心问题 5分

☑️ 正确性 4分

☑️ 数据完整性 5分

☑️ 处理速度 5分

☑️ 成本(付费) 5


同样是1200字的城市名,免费版的Claude3 Sonnet也进行了分段,从生成速度完胜GPT-4,再加上免费这次Claude3略胜一筹GPT-4。


不过,Claude3 Sonnet对个别城市名称出现遗漏,例如,NANNING 没有识别出来。GPT-4是正确识别的。



特别说明,此前用Claude2测试并不理想,甚至中间数据混乱到已无法继续测试。本次Claude3的结果让人格外惊喜。



@大鱼 点评


Claude 3 Sonnet免费版本,测试中和GPT-4付费版本相比势均力敌,在处理速度上甚至超过GPT-4,不过测试中数据准确性略有不足,整体来说已经很不错。



场景2   自动补全详细地理位置

02

国家、省、市、区信息自动补充

场景描述:

基于场景1,已经成功获得城市名称后,我们常常需要补全省份信息。例如,省、市、区或者详细地址的自动补全,通常需要花费大量的时间,或者需要代码开发同事帮忙,否认很难快速实现。


数据(示例)

场景1中的城市名称:拉萨,景洪市等,需要自动匹配上省份名称。


困难分析:

1. 如果只匹配省份,或许能通过找到城市和省份的匹配关系来实现,但如果增加其他条件,复杂度会增加很多。比如同时补充每个省的省会名称。

2. 普通业务人员,几乎无法处理这类问题。


期望效果:

  1. 基于GPT-4或者Claude3的文字理解能力,基于地理位置的常识信息,自动完成城市-省份的匹配工作。



【GPT-4 🌟🌟🌟🌟】没有问题,输在免费和速度


☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 5分

☑️ 处理速度 4分

☑️ 成本(付费) 4


这个问题相对简单,几乎没有任何问题。但从速度和付费的角度上考虑,还是无法完美,毕竟免费是王道。



【Claude3 🌟🌟🌟🌟🌟】免费才是王道


☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 5分

☑️ 处理速度 5分

☑️ 成本(付费) 5


这类问题对于生成式大模型来说就是最简单的问题,叠加上速度和免费,Claude3这波完胜。


@大鱼 点评


不难发现,很多基于常识性的数据处理和清洗,可以尝试借助大模型来实现。一方面,普通业务团队也能应付这类过去无法处理的问题,同时还减少了对开发团队的依赖。Claude3在这类问题上已经能和GPT-4媲美,也值得更多的关注。



场景3   Excel的宏编写,不懂VBA也能玩

03

按需求编写Excel宏,直接用VBA处理数据

场景描述:

作为非Excel专业人士,平时也可能遇到一些Excel处理场景。比如将汇总列表中的每一条数据批量生产工作薄,或者自动读取并汇总多个工作薄中数据形成汇总表。又或者基于上面场景2,对城市名及省份名称做处理,为城市名添加”市”,为省份名添加“省”,同时保证不出现重复的情况,避免出现北京市市、北京市省的异常情况。


数据(示例)

示例1: 数据自动生成工作薄,并自动填充工作薄数据。

示例2: 自动收集工作薄数据并创建汇总表并完成计算。

示例3: 自动为城市名添加“市”,为省份名添加“省”。


困难分析:

1. 示例1、示例2:如果不会用VBA,也不会其他编程语言来处理Excel数据,那么几乎无法完成。尤其处理海量数据时,会大量耗费人工。

2. 示例3:可能有多种边界情况要考虑,excel写公式也会比较复杂。


期望效果:

  1. 基于GPT-4或者Claude3的编程能力,通过描述需求形成可以正确运行的VBA代码,并实现示例1和示例2场景。

2. 基于GPT-4或者Claude3的理解能力、常识判断和编程能力,实现VBA代码清洗Excel数据,实现示例3。



【GPT-4 🌟🌟🌟🌟🌟】绝对王者,VBA代码生成就能直接用


☑️ 解决核心问题 5分

☑️ 代码正确性 5分

☑️ 处理速度 5分

☑️ 成本(付费) 5分


  1. 自动拆分成1000多张工作薄并自动提取1000多张工作薄内容进行汇总且完成计算。

  2. 自动整理1000多张工作薄打印格式,保证内容在一页并自动根据内容换行及调整格式。

  3. 自动为城市名添加“市”,省份名添加“省”


GPT-4的结果绝对惊艳,批量处理时可以节约几十甚至上百小时的人工。毕竟VBA不是人人都会,特别是你身边未必有这类能帮忙的人。


GPT-4生成的VBA代码可以直接运行,遇到任何问题可以直接询问GPT-4基本按步骤操作都能解决。效果很满意,付费也是值得的。



【Claude3 🌟】完全失败!生成VBA代码多次报错


☑️ 解决核心问题 0分

☑️ 代码正确性 0分

☑️ 处理速度 5分

☑️ 成本(付费) 4分


采用Claude3生成的VBA代码在Excel运行中多次出现bug,无法正常运行。对于不熟悉VBA的人来说几乎是毁灭性的,看不懂也改不了,直接摧毁了这种应用场景。下面是VBA给出的错误提示。





@大鱼 点评


虽然评价中Claude3 code以73%超过GPT-4的69%,但在VBA场景下实际测试,Claude3基本是完败,运行中出现多次bug,无法实现需求。


GPT-4在VBA场景下完胜Claude3,但在其他方面Claude3已经接近甚至超越GPT-4,如其他基础的文字处理或数据清洗。实测中依然能感觉到,综合理解力方面GPT-4依旧处于领先。概括起来就是,更能理解你的意思,回复更贴近你的需求,体验更加舒适和流畅。



结语


通过实测案例,不难发现生成式大模型在特定场景下,确实能帮助我们提升工作效率。特别是基于常识类的文字处理(例如城市名称的处理),或者简单批量处理(统一加名字,或者批量处理excel)。



欢迎关注、交流,培养你的AI大模型思维

思维大于工具

培养AI大模型思维

了解AI大模型的能力边界




《AI金榜系列》AI赋能大众,提供AI价值,欢迎关注、订阅!


AI金榜系列

【金榜题名 Sora】提示词10条(下)

【金榜题名 Sora】提示词10条(上)

【AI金榜】视频生成工具 Top4

【AI金榜】GPT类免费工具榜

【AI金榜】国产大模型合集

【AI金榜】AI角色扮演,虚拟陪伴类AI工具

【AI金榜】AI工具合集站


Claude & Claude2 相关阅读

ChatGPT最强平替Claude 2.0

ChatGPT最强平替Claude

Claude(续) 解决“限制”问题


GPT相关阅读

AI界的新浪潮:2023年全球大模型技术发展盘点

被吹爆的FinChat【真的不好用】

(无魔法、完全免费)ChatGPT 平替 Monica

建议收藏!吴恩达ChatGPT免费课程

收藏!ChatGPT应用之插件篇(亲测)

ChatGPT的三波红利,你抓住了吗?

New Bing最强引擎使用手册

ChatGPT崛起,我们会被取代吗?

ChatGPT产品市场趋势分析

保持初心,拒绝韭菜。

输出AI知识,亲测AI工具,带来满满干货,欢迎持续关注!


 



No.

023


敬胜怠,义胜欲;

知其雄,守其雌。 

学到老的大鱼爸爸
望子成龙,不如自身行动。 努力成为孩子的榜样。 充实自己、调味生活。