本期《金榜题名》 Claude3
AI工具千万万,真正好用看“金榜”
对比Claude3 免费Sonnet V.S. ChatGPT Plus
为什么不是Claude3 Pro的付费版?原因有2个:
作为ChatGPT Plus 接近1年的忠实用户,坚信GPT-4的遥遥领先,一直被追赶从未被超越。
最近刚体验过的数据分析场景,ChatGPT几乎完爆Claude2,所以对Claude3 Pro付费版预期不高。
希望Claude3能有超出预期的表现,毕竟从benchmarks对比看,免费版Sonnet除了第一项大学本科知识、第四项数学知识外,其他从得分上已经和GPT-4不分伯仲,甚至还有得分还高出不少。
补充:Claude3 是Anthropic公司出品的生成式大模型产品,之前在文生文领域行业老二,仅次于大名顶顶的ChatGPT。使用有地域限制,注册要求比较高。后面也会尝试帮大家找一些免费的使用方法。
场景1 数据清洗 - 城市名称
01
数据清洗 - 城市名称翻译
场景描述:
在日常工作中,常常会遇到数据清洗、数据整理的场景。这次测试案例中,将大量人工输入的城市名称标准化。城市名称中会存在各种复杂的情况,例如中文、英文、大小写、各种空格,拼音,甚至拼音缺少字母,数据颠倒等。
数据(示例):
1. 各种数据异常,SHanghai,上海,上海市,Shang Hai,Shangai,Shanghai,上 海,SangHai,Sahnghai等...
2. 不常见的城市名拼音:Lhasa,拉萨市,Jinghong,景洪市等...
困难分析:
1. 如果仅用代码,正则表达式无法覆盖所有数据异常情况,特别是字母颠倒、字母出错等情况。
2. 针对部分不常见的城市名,如果没有完整的城市名列表,或者更多信息知识,无法快速识别正确的城市名。
期望效果:
基于GPT-4或者Claude3的文字理解能力,基于城市名的常识信息实现快速的城市名标准化处理。
具体来说,将各种错误的城市名,修正为正确的城市名。匹配城市名时优先选择中国GDP最高的前100个城市。
【GPT-4 🌟🌟🌟🌟】卫冕者依然优秀
☑️ 解决核心问题 5分
☑️ 正确性 5分
☑️ 数据完整性 4分
☑️ 处理速度 4分
☑️ 成本(付费) 4分
本次仅测试总长度为1200字的城市名称,已经超过了GPT-4的默认token数。GPT-4会自动对数据进行分批处理,并继续完成后续部分。
准确性比较高,但因为进行了分段处理,中间出现数据缺少,需要人工校验一遍。整体1小时内搞定。
【Claude3 🌟🌟🌟🌟】挑战者势均力敌
☑️ 解决核心问题 5分
☑️ 正确性 4分
☑️ 数据完整性 5分
☑️ 处理速度 5分
☑️ 成本(付费) 5分
同样是1200字的城市名,免费版的Claude3 Sonnet也进行了分段,从生成速度完胜GPT-4,再加上免费这次Claude3略胜一筹GPT-4。
不过,Claude3 Sonnet对个别城市名称出现遗漏,例如,NANNING 没有识别出来。GPT-4是正确识别的。
特别说明,此前用Claude2测试并不理想,甚至中间数据混乱到已无法继续测试。本次Claude3的结果让人格外惊喜。
@大鱼 点评
Claude 3 Sonnet免费版本,测试中和GPT-4付费版本相比势均力敌,在处理速度上甚至超过GPT-4,不过测试中数据准确性略有不足,整体来说已经很不错。
场景2 自动补全详细地理位置
02
国家、省、市、区信息自动补充
场景描述:
基于场景1,已经成功获得城市名称后,我们常常需要补全省份信息。例如,省、市、区或者详细地址的自动补全,通常需要花费大量的时间,或者需要代码开发同事帮忙,否认很难快速实现。
数据(示例):
场景1中的城市名称:拉萨,景洪市等,需要自动匹配上省份名称。
困难分析:
1. 如果只匹配省份,或许能通过找到城市和省份的匹配关系来实现,但如果增加其他条件,复杂度会增加很多。比如同时补充每个省的省会名称。
2. 普通业务人员,几乎无法处理这类问题。
期望效果:
基于GPT-4或者Claude3的文字理解能力,基于地理位置的常识信息,自动完成城市-省份的匹配工作。
【GPT-4 🌟🌟🌟🌟】没有问题,输在免费和速度
☑️ 解决核心问题 5分
☑️ 正确性 5分
☑️ 数据完整性 5分
☑️ 处理速度 4分
☑️ 成本(付费) 4分
这个问题相对简单,几乎没有任何问题。但从速度和付费的角度上考虑,还是无法完美,毕竟免费是王道。
【Claude3 🌟🌟🌟🌟🌟】免费才是王道
☑️ 解决核心问题 5分
☑️ 正确性 5分
☑️ 数据完整性 5分
☑️ 处理速度 5分
☑️ 成本(付费) 5分
这类问题对于生成式大模型来说就是最简单的问题,叠加上速度和免费,Claude3这波完胜。
@大鱼 点评
不难发现,很多基于常识性的数据处理和清洗,可以尝试借助大模型来实现。一方面,普通业务团队也能应付这类过去无法处理的问题,同时还减少了对开发团队的依赖。Claude3在这类问题上已经能和GPT-4媲美,也值得更多的关注。
场景3 Excel的宏编写,不懂VBA也能玩
03
按需求编写Excel宏,直接用VBA处理数据
场景描述:
作为非Excel专业人士,平时也可能遇到一些Excel处理场景。比如将汇总列表中的每一条数据批量生产工作薄,或者自动读取并汇总多个工作薄中数据形成汇总表。又或者基于上面场景2,对城市名及省份名称做处理,为城市名添加”市”,为省份名添加“省”,同时保证不出现重复的情况,避免出现北京市市、北京市省的异常情况。
数据(示例):
示例1: 数据自动生成工作薄,并自动填充工作薄数据。
示例2: 自动收集工作薄数据并创建汇总表并完成计算。
示例3: 自动为城市名添加“市”,为省份名添加“省”。
困难分析:
1. 示例1、示例2:如果不会用VBA,也不会其他编程语言来处理Excel数据,那么几乎无法完成。尤其处理海量数据时,会大量耗费人工。
2. 示例3:可能有多种边界情况要考虑,excel写公式也会比较复杂。
期望效果:
基于GPT-4或者Claude3的编程能力,通过描述需求形成可以正确运行的VBA代码,并实现示例1和示例2场景。
2. 基于GPT-4或者Claude3的理解能力、常识判断和编程能力,实现VBA代码清洗Excel数据,实现示例3。
【GPT-4 🌟🌟🌟🌟🌟】绝对王者,VBA代码生成就能直接用
☑️ 解决核心问题 5分
☑️ 代码正确性 5分
☑️ 处理速度 5分
☑️ 成本(付费) 5分
自动拆分成1000多张工作薄并自动提取1000多张工作薄内容进行汇总且完成计算。
自动整理1000多张工作薄打印格式,保证内容在一页并自动根据内容换行及调整格式。
自动为城市名添加“市”,省份名添加“省”
GPT-4的结果绝对惊艳,批量处理时可以节约几十甚至上百小时的人工。毕竟VBA不是人人都会,特别是你身边未必有这类能帮忙的人。
GPT-4生成的VBA代码可以直接运行,遇到任何问题可以直接询问GPT-4基本按步骤操作都能解决。效果很满意,付费也是值得的。
【Claude3 🌟】完全失败!生成VBA代码多次报错
☑️ 解决核心问题 0分
☑️ 代码正确性 0分
☑️ 处理速度 5分
☑️ 成本(付费) 4分
采用Claude3生成的VBA代码在Excel运行中多次出现bug,无法正常运行。对于不熟悉VBA的人来说几乎是毁灭性的,看不懂也改不了,直接摧毁了这种应用场景。下面是VBA给出的错误提示。
@大鱼 点评
虽然评价中Claude3 code以73%超过GPT-4的69%,但在VBA场景下实际测试,Claude3基本是完败,运行中出现多次bug,无法实现需求。
GPT-4在VBA场景下完胜Claude3,但在其他方面Claude3已经接近甚至超越GPT-4,如其他基础的文字处理或数据清洗。实测中依然能感觉到,综合理解力方面GPT-4依旧处于领先。概括起来就是,更能理解你的意思,回复更贴近你的需求,体验更加舒适和流畅。
结语
通过实测案例,不难发现生成式大模型在特定场景下,确实能帮助我们提升工作效率。特别是基于常识类的文字处理(例如城市名称的处理),或者简单批量处理(统一加名字,或者批量处理excel)。
欢迎关注、交流,培养你的AI大模型思维
思维大于工具
培养AI大模型思维
了解AI大模型的能力边界
《AI金榜系列》AI赋能大众,提供AI价值,欢迎关注、订阅!
AI金榜系列
Claude & Claude2 相关阅读
GPT相关阅读
保持初心,拒绝韭菜。
输出AI知识,亲测AI工具,带来满满干货,欢迎持续关注!
No.
023
敬胜怠,义胜欲;
知其雄,守其雌。