关于Llama Reflection 70B的争议：这就是个Claude Sonnet 3.5的“马甲”？

科技 2024-09-09 15:07 波兰

最近，AI社区被Reflection 70B这个号称“划时代”的模型搞得沸沸扬扬，然而真相却很可能是：它只不过是个换了个包装的Claude 3.5 Sonnet。这种怀疑来自多个事件和对比，最著名的莫过于网上流传的一张截图，直接把这俩模型的输出放在一起，宛如双胞胎般相似，让人直呼“这也行？”

截图里的大戏

在这张截图里，我们看到Reflection 70B和Claude 3.5 Sonnet两个模型的输出并排在一起。这俩模型面对的是同一个任务：解码一个Base64编码的字符串。它们的相似程度令人瞠目结舌。每个模型都规规矩矩地给出了一套一模一样的步骤：识别Base64格式、解码字符串、分析内容、解读结果。

不仅如此，它们都用同样的标签来标注思路，接着就是结构清晰的计划和几乎一字不差的解释。两者的唯一区别就是反应速度和消耗的tokens数量——Reflection 70B每秒处理大约75.8个tokens，而Claude 3.5 Sonnet则是54.6个tokens/s。看到这儿，谁还敢说它们不是一个东西？

这种对比让大家不禁发问：Reflection 70B真的是独立开发的新模型吗，还是只是在Claude 3.5 Sonnet的基础上稍微调整了下参数，换了个马甲重新包装卖情怀？

社区反应：信任危机与各种脑补

这张截图掀起了社区的热烈讨论，尤其是在Reddit上，网友们对Reflection 70B的真实身份展开了激烈的质疑。不少人认为自己被骗了，感觉像是买了个“新款iPhone”，结果拆开盒子发现里面是个刷了系统的旧款机子。

有用户回忆说，最初在测试Reflection 70B时，表现还相当出色，回应准确且没有什么内容过滤。然而在OpenRouter等平台上，后续体验却是重度删减版本，这让大家不禁怀疑，Reflection 70B是不是在初期为了博好感用了ChatGPT或者Llama3+ChatGPT，后来由于各种原因才改成了Claude的API。

Reddit用户u/Friendly_Willingness的经历更是揭露了这场“换壳大戏”的精髓：

“用了最初几个小时的demo站点的prompt，结果在OpenRouter上版本被改得像个被阉割了的机器，拒绝写我要求的内容……所以最初可能是ChatGPT或者Llama3+ChatGPT，现在是换成了那个以严厉审查著称的Claude。”

还有人如u/jollizee直言不讳地批评说：

“一些评测比Sonnet还差。这哥们就是拿Sonnet改了个愚蠢的系统提示就往外推了。我不知道该笑还是该哭。”

这种吐槽抓住了问题的核心：模型表现前后不一致，透明度近乎为零，用户体验大打折扣。

这是一场营销骗局吗？

争议的核心是：越来越多的人认为，Reflection 70B根本不是什么原创模型，而是一个精心包装的Claude 3.5 Sonnet。许多人认为，这种换壳式营销不仅欺骗了大众，更反映了AI行业内一种更大的问题：为了吸引风险投资而不惜夸大其词的风气。

Reddit用户u/foo-bar-nlogn-100甚至脑补了整个事件的商业逻辑：

“为了骗一笔VC的钱，然后跑路到阿联酋这种不引渡的国家。”

其他社区成员指出Reflection 70B在处理某些任务时的表现前后不一，如分词方式在不同API间表现得天差地别。这些不一致进一步加深了人们的怀疑，觉得官方API可能在不同底层模型间切换，以避免法律问题或公关危机。

更广泛的影响：对AI开发的信任危机

Reflection 70B的争议揭示了AI开发中的一个关键问题：透明度。在一个信任至关重要的领域，Reflection 70B的这波操作不仅让开发者颜面尽失，还可能对整个行业带来深远的负面影响。

不少社区成员呼吁加强问责，要求模型开发和测试环节有更清晰的披露。Reflection 70B事件也警示其他开发者——一味吹嘘创新却拿不出真东西，结果就是失信于人。AI社区需要更严谨的自律与透明，用户也应当更谨慎地面对这些“划时代”宣言。

如今，随着争议尘埃落定，社区仍保持着高度的戒心。Reflection 70B事件就是一面镜子，照出AI开发中的种种乱象，也警醒人们在信任缺失的环境下如何保护自己。

关于Reflection 70B究竟是不是Sonnet 3.5的马甲，这个问题已经不再是简单的技术争论，而是关系到整个AI开发的诚信问题。尽管Reflection 70B的真正技术细节可能永远不会被完全揭露，但这场风波已经给我们上了一课。AI社区需要更多的透明和更少的套路。对于开发者而言，守住底线才是长远之道；对于用户而言，保持怀疑才能不被“划时代”的营销话术带偏。

无广告无赞助的人工智障

AI时代的见证人｜Witnesses to the AI Era

最新文章

2024年的AI：是进化还是革命？——我们到底走了多远？

249美刀的NVIDIA Jetson Orin Nano Super值得买吗？AI神器还是智商税？

2017年的预言：Ilya Sutskever，到底打脸了多少？

Gemini 2.0 VS GPT-4o：谷歌这波是AI界的大爆杀？

Gemini 2.0 Flash PK Claude Sonnet 3.5：谷歌偷走了SWE-Bench的王冠？

没有广告，这就是我对这些AI工具付费后的真实感受

最值当的AI：哪些AI服务真的值得投入？

OpenAI推出200美元Pro计划：颠覆性创新还是智商税？

美国最新制裁意味着什么？对我国AI行业有什么影响

2024适用于LLM推理的最佳NVIDIA GPU大指南

你还在用AI写作文，人家已经用它去做这50件超值的事情改变生活了

面试现形记——疯狂时代中疯子们用AI来面试

AI审美疲劳：为什么厌倦了？

月之暗面：Kimi探索版发布、法律纠纷与融资增长的多重挑战

台积电因为川普当选瑟瑟发抖，全面禁运7纳米芯片到我国？

川普当选，这家中国科技公司最高兴，它的AI名叫？

为什么我试了SearchGPT之后，又乖乖回到Perplexity的怀抱

2024最佳科研AI工具对比：Consensus、SciSpace、Elicit及其他

Perplexity Pro用户有福了，可以免费用 Grok-2了

苹果认为的AI的“真相”报告，出乎意料？

我私藏的5个超棒的网站（不完全是AI），今天用来吸粉

Sonnet 4.0 真已经悄悄上线了吗？深度解读 Anthropic 的最新更新

Claude 3.6：它真的比你聪明，还是只是在死守规则？

Claude 的 Haiku 3.5：真的让你的生产力提升了一个档次？

Claude 3.5 Sonnet 新的系统提示词：更灵活的进步还是仅仅更长的提示词？

总结如何使用AI提示词撰写SEO优化文章（Prompt分享）

工作20年，拥有10万封邮件，用AI挖掘他们的价值？

你应该用AI构建什么——分析400家YCombinator支持的AI初创公司

ChatGPT的新未来， GPT-4o with Canvas？案例和prompt分享

本地运行大语言模型？这6个工具居然没人推荐

书上学不到的30条关于AI的总结

ChatGPT-4o 给我的日常生活带来的20大改变（每个都有prompt！）

普通人如何把职业规划切换到AI赛道？

网友们投票改变大家生活的AI工具，其中有3个我听都没听说过

董宇辉再次翻车，我的猜测是和AI相关

27岁的Office lady如何把工作100% A I 化，彻底放飞并寻求自我

FLUX.1：搅局百亿AI图像生成市场的最佳平替？

奥特曼帝国：OpenAI转向盈利化，科技巨头的套路如出一辙

AI视频聊天能替代人类的社交吗？未来虚拟伴侣的故事

AI大热退潮背后的真相，下一步又将何去何从？

如何在AI时代存活——会计师篇

AI热潮 vs. 网络泡沫：我们又回到1996年了吗？

AI先发话？ChatGPT主动找你聊天的真相大揭秘