DeepSeek周末刷屏DeepSeek V3“报错家门”:我是ChatGPT

财富   2024-12-30 14:36   山东  

周末,量化巨头幻方旗下、“AI界拼多多”深度求索(DeepSeek)自研的大模型DeepSeek-v3刷屏国内外,引发行业大讨论。

12月26日晚间,AI公司杭州深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。公司称,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

并且,DeepSeek将模型API服务定价调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元,以期能够持续地为大家提供更好的模型服务。DeepSeek还决定为全新模型设置长达45天的优惠价格体验期:26日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens2元。

一方面,DeepSeek-v3的成本很低,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。

另一方面,性能上,DeepSeek-v3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

不过,需要注意的是,2048块H800并非全部训练算力投入。

其中,不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力,以及模型架构的探索调试阶段消耗的算力。

据悉,DeepSeek之所以能用较少的算力就开发出性能强大的大模型,关键是在后训练的时候把一个叫R1的模型,它的推理能力蒸馏到了V3模型上,这样后训练部分就基本没有成本。

DeepSeek-v3的成功引发了关于算力、大模型训练方式的大讨论,部分投资者担忧行业对算力的需求或大幅下降。

广发证券计算机团队12月29日发布报告称,通过有限的实测结果,该团队发现,DeepSeek总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。并且DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。

广发证券称,在大规模MoE模型的训练中,DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施,显著降低了训练成本。DeepSeek证明了模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。

曾是OpenAI创始成员之一的AI科学家Andrej Karpathy评价称:“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型,其仅使用2048块GPU训练了2个月,只花费了近600万美元。作为参考,这种级别的能力本应该需要接近1.6万块的GPU集群,而目前正在部署的集群包含的GPU数量却接近10万块。例如,Llama 3405B模型使用了3080万GPU/小时,而DeepSeek-V3模型看起来更加强大,却仅使用了280万GPU/小时(计算量减少了约11倍)。如果此模型还能通过各项评估,那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”

不过在网友们纷纷测试之际,有个bug也成了热议的焦点——

只是少了一个问号,DeepSeek V3竟然称自己是ChatGPT。

甚至让它讲个笑话,生成的结果也是跟ChatGPT一样:

加之DeepSeek V3这次爆火的一个亮点,就是训练只花了557.6万美元的成本。

于是乎,有人就开始怀疑了:它不会是在ChatGPT的输出基础上训练的吧?

好巧不巧,Altman也发了一个状态,似乎在暗讽着什么……

不过DeepSeek V3并非是第一个出现“报错家门”的大模型。

例如Gemini就曾说过自己是百度的文心一言

那么这到底是怎么一回事?

首先需要强调的一点是,从目前网友们整体讨论的观点来看,说DeepSeek V3是在ChatGPT输出上训练的可能性不大

之所以这么说,正如网友Riley Goodside所总结的那样——因为ChatGPT的影子无处不在。

紧接着,Riley Goodside又拿出了DeepSeek V3报告中的一些证据:

而比起用没用ChatGPT数据,或许我们应当更加关注的是为什么大模型会频繁出现“报错家门”的问题。

TechCrunch针对这个问题给出了一句犀利的点评:

毕竟欧盟的一份报告曾预测,到2026年,90%的在线内容可能是AI生成的。

这种“AI污染”就会让“训练数据彻底过滤AI的输出”变得困难。

AI Now Institute的首席科学家Heidy Khlaaf则表示:

那么现在对于网友们热议的问题,量子位进行了一波实测,DeepSeek V3目前还没有解决这个bug。

依旧是少了个问号,回答结果会不一样:

不过有一说一,绝大部分网友对于DeepSeek V3的能力是给予了大大的肯定。

从各路AI大佬们集体直呼“优雅”中就能印证这一点。

而就在这两天,网友们陆续晒出了更多DeepSeek V3加持的实用玩法

例如有网友拿DeepSeek V3和Claude Sonnet 3.5一决高下,在Scroll Hub中分别用它俩创建网站

视频地址:https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

博主在测试之后,认为DeepSeek V3完全胜出!

还有网友分享了用DeepSeek V3在AI视频编辑器中的体验。

他表示以后不用再在FFMPEG命令上浪费时间了,DeepSeek V3不仅免费,还能改变你的工作流程:

视频地址:https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

AI编程神器Cursor也能跟DeepSeek V3结合,来看一个做贪吃蛇的案例:

视频地址:https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

嗯,DeepSeek V3是有点好用在身上的。

对于此前公布的53页论文,也有网友关注到了一个非技术性的细节——

贡献列表中,不仅展示了技术人员,还有数据注释和商务等工作人员:

网友认为这种做法非常符合DeepSeek的调性:

分析来看,即使诸如DeepSeek-v3之类的大模型成功了,但字节、小米、理想等科技巨头在算力上的投资并不会减少,反而因为有了这些成功案例,让大家看到了行业潜力,有望进一步加码。

而且,DeepSeek的成功将给国内其他企业带来启发,如何更高效地利用算力资源,有望促使更多的中小型企业入局。

未来,随着开发成本的降低,AI应用及软件有望迎来大机遇。

12月28日,由中央广播电视总台和国务院国资委联合制作的大型系列纪录片《大国基石》第三期推出《算力引擎》,明确提出算力即国力,它是数字经济时代的新质生产力。

截至2023年,中国算力总规模位列全球第二,累计建成国家级超算中心14个,全国在用超大型和大型数据中心达633个、智算中心达60个。

今日,算力板块表现活跃,领跑市场。

金融头条
汇聚资深金融界人士精华推荐,每天精选若干条对资本市场影响重大的文章或报告,帮助读者提升思维的深度、广度和高度。
 最新文章