【烫手】3个真实场景，GPT-4 依旧完爆Claude3

文摘科技 2024-03-12 07:15 浙江

本期《金榜题名》 Claude3

AI工具千万万，真正好用看“金榜”

对比Claude3 免费Sonnet V.S. ChatGPT Plus

为什么不是Claude3 Pro的付费版？原因有2个：

作为ChatGPT Plus 接近1年的忠实用户，坚信GPT-4的遥遥领先，一直被追赶从未被超越。
最近刚体验过的数据分析场景，ChatGPT几乎完爆Claude2，所以对Claude3 Pro付费版预期不高。

希望Claude3能有超出预期的表现，毕竟从benchmarks对比看，免费版Sonnet除了第一项大学本科知识、第四项数学知识外，其他从得分上已经和GPT-4不分伯仲，甚至还有得分还高出不少。

补充：Claude3 是Anthropic公司出品的生成式大模型产品，之前在文生文领域行业老二，仅次于大名顶顶的ChatGPT。使用有地域限制，注册要求比较高。后面也会尝试帮大家找一些免费的使用方法。

场景1 数据清洗 - 城市名称

数据清洗 - 城市名称翻译

场景描述：

在日常工作中，常常会遇到数据清洗、数据整理的场景。这次测试案例中，将大量人工输入的城市名称标准化。城市名称中会存在各种复杂的情况，例如中文、英文、大小写、各种空格，拼音，甚至拼音缺少字母，数据颠倒等。

数据（示例）：

1. 各种数据异常，SHanghai，上海，上海市，Shang Hai，Shangai，Shanghai，上海，SangHai，Sahnghai等...

2. 不常见的城市名拼音：Lhasa，拉萨市，Jinghong，景洪市等...

困难分析：

1. 如果仅用代码，正则表达式无法覆盖所有数据异常情况，特别是字母颠倒、字母出错等情况。

2. 针对部分不常见的城市名，如果没有完整的城市名列表，或者更多信息知识，无法快速识别正确的城市名。

期望效果：

基于GPT-4或者Claude3的文字理解能力，基于城市名的常识信息实现快速的城市名标准化处理。
具体来说，将各种错误的城市名，修正为正确的城市名。匹配城市名时优先选择中国GDP最高的前100个城市。

【GPT-4 🌟🌟🌟🌟】卫冕者依然优秀

☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 4分

☑️ 处理速度 4分

☑️ 成本（付费） 4分

本次仅测试总长度为1200字的城市名称，已经超过了GPT-4的默认token数。GPT-4会自动对数据进行分批处理，并继续完成后续部分。

准确性比较高，但因为进行了分段处理，中间出现数据缺少，需要人工校验一遍。整体1小时内搞定。

【Claude3 🌟🌟🌟🌟】挑战者势均力敌

☑️ 解决核心问题 5分

☑️ 正确性 4分

☑️ 数据完整性 5分

☑️ 处理速度 5分

☑️ 成本（付费） 5分

同样是1200字的城市名，免费版的Claude3 Sonnet也进行了分段，从生成速度完胜GPT-4，再加上免费这次Claude3略胜一筹GPT-4。

不过，Claude3 Sonnet对个别城市名称出现遗漏，例如，NANNING 没有识别出来。GPT-4是正确识别的。

特别说明，此前用Claude2测试并不理想，甚至中间数据混乱到已无法继续测试。本次Claude3的结果让人格外惊喜。

@大鱼点评

Claude 3 Sonnet免费版本，测试中和GPT-4付费版本相比势均力敌，在处理速度上甚至超过GPT-4，不过测试中数据准确性略有不足，整体来说已经很不错。

场景2 自动补全详细地理位置

国家、省、市、区信息自动补充

场景描述：

基于场景1，已经成功获得城市名称后，我们常常需要补全省份信息。例如，省、市、区或者详细地址的自动补全，通常需要花费大量的时间，或者需要代码开发同事帮忙，否认很难快速实现。

数据（示例）：

场景1中的城市名称：拉萨，景洪市等，需要自动匹配上省份名称。

困难分析：

1. 如果只匹配省份，或许能通过找到城市和省份的匹配关系来实现，但如果增加其他条件，复杂度会增加很多。比如同时补充每个省的省会名称。

2. 普通业务人员，几乎无法处理这类问题。

期望效果：

基于GPT-4或者Claude3的文字理解能力，基于地理位置的常识信息，自动完成城市-省份的匹配工作。

【GPT-4 🌟🌟🌟🌟】没有问题，输在免费和速度

☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 5分

☑️ 处理速度 4分

☑️ 成本（付费） 4分

这个问题相对简单，几乎没有任何问题。但从速度和付费的角度上考虑，还是无法完美，毕竟免费是王道。

【Claude3 🌟🌟🌟🌟🌟】免费才是王道

☑️ 解决核心问题 5分

☑️ 正确性 5分

☑️ 数据完整性 5分

☑️ 处理速度 5分

☑️ 成本（付费） 5分

这类问题对于生成式大模型来说就是最简单的问题，叠加上速度和免费，Claude3这波完胜。

@大鱼点评

不难发现，很多基于常识性的数据处理和清洗，可以尝试借助大模型来实现。一方面，普通业务团队也能应付这类过去无法处理的问题，同时还减少了对开发团队的依赖。Claude3在这类问题上已经能和GPT-4媲美，也值得更多的关注。

场景3 Excel的宏编写，不懂VBA也能玩

按需求编写Excel宏，直接用VBA处理数据

场景描述：

作为非Excel专业人士，平时也可能遇到一些Excel处理场景。比如将汇总列表中的每一条数据批量生产工作薄，或者自动读取并汇总多个工作薄中数据形成汇总表。又或者基于上面场景2，对城市名及省份名称做处理，为城市名添加”市”，为省份名添加“省”，同时保证不出现重复的情况，避免出现北京市市、北京市省的异常情况。

数据（示例）：

示例1: 数据自动生成工作薄，并自动填充工作薄数据。

示例2: 自动收集工作薄数据并创建汇总表并完成计算。

示例3: 自动为城市名添加“市”，为省份名添加“省”。

困难分析：

1. 示例1、示例2：如果不会用VBA，也不会其他编程语言来处理Excel数据，那么几乎无法完成。尤其处理海量数据时，会大量耗费人工。

2. 示例3：可能有多种边界情况要考虑，excel写公式也会比较复杂。

期望效果：