最近,AI社区被Reflection 70B这个号称“划时代”的模型搞得沸沸扬扬,然而真相却很可能是:它只不过是个换了个包装的Claude 3.5 Sonnet。这种怀疑来自多个事件和对比,最著名的莫过于网上流传的一张截图,直接把这俩模型的输出放在一起,宛如双胞胎般相似,让人直呼“这也行?”
截图里的大戏
在这张截图里,我们看到Reflection 70B和Claude 3.5 Sonnet两个模型的输出并排在一起。这俩模型面对的是同一个任务:解码一个Base64编码的字符串。它们的相似程度令人瞠目结舌。每个模型都规规矩矩地给出了一套一模一样的步骤:识别Base64格式、解码字符串、分析内容、解读结果。
不仅如此,它们都用同样的
这种对比让大家不禁发问:Reflection 70B真的是独立开发的新模型吗,还是只是在Claude 3.5 Sonnet的基础上稍微调整了下参数,换了个马甲重新包装卖情怀?
社区反应:信任危机与各种脑补
这张截图掀起了社区的热烈讨论,尤其是在Reddit上,网友们对Reflection 70B的真实身份展开了激烈的质疑。不少人认为自己被骗了,感觉像是买了个“新款iPhone”,结果拆开盒子发现里面是个刷了系统的旧款机子。
有用户回忆说,最初在测试Reflection 70B时,表现还相当出色,回应准确且没有什么内容过滤。然而在OpenRouter等平台上,后续体验却是重度删减版本,这让大家不禁怀疑,Reflection 70B是不是在初期为了博好感用了ChatGPT或者Llama3+ChatGPT,后来由于各种原因才改成了Claude的API。
Reddit用户u/Friendly_Willingness的经历更是揭露了这场“换壳大戏”的精髓:
“用了最初几个小时的demo站点的prompt,结果在OpenRouter上版本被改得像个被阉割了的机器,拒绝写我要求的内容……所以最初可能是ChatGPT或者Llama3+ChatGPT,现在是换成了那个以严厉审查著称的Claude。”
还有人如u/jollizee直言不讳地批评说:
“一些评测比Sonnet还差。这哥们就是拿Sonnet改了个愚蠢的系统提示就往外推了。我不知道该笑还是该哭。”
这种吐槽抓住了问题的核心:模型表现前后不一致,透明度近乎为零,用户体验大打折扣。
这是一场营销骗局吗?
争议的核心是:越来越多的人认为,Reflection 70B根本不是什么原创模型,而是一个精心包装的Claude 3.5 Sonnet。许多人认为,这种换壳式营销不仅欺骗了大众,更反映了AI行业内一种更大的问题:为了吸引风险投资而不惜夸大其词的风气。
Reddit用户u/foo-bar-nlogn-100甚至脑补了整个事件的商业逻辑:
“为了骗一笔VC的钱,然后跑路到阿联酋这种不引渡的国家。”
其他社区成员指出Reflection 70B在处理某些任务时的表现前后不一,如分词方式在不同API间表现得天差地别。这些不一致进一步加深了人们的怀疑,觉得官方API可能在不同底层模型间切换,以避免法律问题或公关危机。
更广泛的影响:对AI开发的信任危机
Reflection 70B的争议揭示了AI开发中的一个关键问题:透明度。在一个信任至关重要的领域,Reflection 70B的这波操作不仅让开发者颜面尽失,还可能对整个行业带来深远的负面影响。
不少社区成员呼吁加强问责,要求模型开发和测试环节有更清晰的披露。Reflection 70B事件也警示其他开发者——一味吹嘘创新却拿不出真东西,结果就是失信于人。AI社区需要更严谨的自律与透明,用户也应当更谨慎地面对这些“划时代”宣言。
如今,随着争议尘埃落定,社区仍保持着高度的戒心。Reflection 70B事件就是一面镜子,照出AI开发中的种种乱象,也警醒人们在信任缺失的环境下如何保护自己。
关于Reflection 70B究竟是不是Sonnet 3.5的马甲,这个问题已经不再是简单的技术争论,而是关系到整个AI开发的诚信问题。尽管Reflection 70B的真正技术细节可能永远不会被完全揭露,但这场风波已经给我们上了一课。AI社区需要更多的透明和更少的套路。对于开发者而言,守住底线才是长远之道;对于用户而言,保持怀疑才能不被“划时代”的营销话术带偏。