DeepSeek周末刷屏DeepSeek V3“报错家门”：我是ChatGPT

财富 2024-12-30 14:36 山东

周末，量化巨头幻方旗下、“AI界拼多多”深度求索（DeepSeek）自研的大模型DeepSeek-v3刷屏国内外，引发行业大讨论。

12月26日晚间，AI公司杭州深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。公司称，DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

并且，DeepSeek将模型API服务定价调整为每百万输入tokens0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens8元，以期能够持续地为大家提供更好的模型服务。DeepSeek还决定为全新模型设置长达45天的优惠价格体验期：26日起至2025年2月8日，DeepSeek-V3的API服务价格仍然是每百万输入tokens0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens2元。

一方面，DeepSeek-v3的成本很低，在预训练阶段仅使用2048块GPU训练了2个月，且只花费557.6万美元。

另一方面，性能上，DeepSeek-v3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

不过，需要注意的是，2048块H800并非全部训练算力投入。

其中，不包括DeepSeek R1模型（对标OpenAI o1）生成的高质量数据消耗的算力，以及模型架构的探索调试阶段消耗的算力。

据悉，DeepSeek之所以能用较少的算力就开发出性能强大的大模型，关键是在后训练的时候把一个叫R1的模型，它的推理能力蒸馏到了V3模型上，这样后训练部分就基本没有成本。

DeepSeek-v3的成功引发了关于算力、大模型训练方式的大讨论，部分投资者担忧行业对算力的需求或大幅下降。

广发证券计算机团队12月29日发布报告称，通过有限的实测结果，该团队发现，DeepSeek总体能力与其他大模型相当，但在逻辑推理和代码生成领域具有自身特点。并且DeepSeek-V3通过数据与算法层面的优化，大幅提升算力利用效率，实现了协同效应。

广发证券称，在大规模MoE模型的训练中，DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施，显著降低了训练成本。DeepSeek证明了模型效果不仅依赖于算力投入，即使在硬件资源有限的情况下，依托数据与算法层面的优化创新，仍然可以高效利用算力，实现较好的模型效果。

曾是OpenAI创始成员之一的AI科学家Andrej Karpathy评价称：“今天，一家中国AI公司轻而易举地发布了一个前沿大语言模型，其仅使用2048块GPU训练了2个月，只花费了近600万美元。作为参考，这种级别的能力本应该需要接近1.6万块的GPU集群，而目前正在部署的集群包含的GPU数量却接近10万块。例如，Llama 3405B模型使用了3080万GPU/小时，而DeepSeek-V3模型看起来更加强大，却仅使用了280万GPU/小时（计算量减少了约11倍）。如果此模型还能通过各项评估，那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”

不过在网友们纷纷测试之际，有个bug也成了热议的焦点——

只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。

甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：

加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

于是乎，有人就开始怀疑了：它不会是在ChatGPT的输出基础上训练的吧？

好巧不巧，Altman也发了一个状态，似乎在暗讽着什么……

不过DeepSeek V3并非是第一个出现“报错家门”的大模型。

例如Gemini就曾说过自己是百度的文心一言

那么这到底是怎么一回事？

首先需要强调的一点是，从目前网友们整体讨论的观点来看，说DeepSeek V3是在ChatGPT输出上训练的可能性不大

之所以这么说，正如网友Riley Goodside所总结的那样——因为ChatGPT的影子无处不在。

紧接着，Riley Goodside又拿出了DeepSeek V3报告中的一些证据：

而比起用没用ChatGPT数据，或许我们应当更加关注的是为什么大模型会频繁出现“报错家门”的问题。

TechCrunch针对这个问题给出了一句犀利的点评：

毕竟欧盟的一份报告曾预测，到2026年，90%的在线内容可能是AI生成的。

这种“AI污染”就会让“训练数据彻底过滤AI的输出”变得困难。

AI Now Institute的首席科学家Heidy Khlaaf则表示：

那么现在对于网友们热议的问题，量子位进行了一波实测，DeepSeek V3目前还没有解决这个bug。

依旧是少了个问号，回答结果会不一样：

不过有一说一，绝大部分网友对于DeepSeek V3的能力是给予了大大的肯定。

从各路AI大佬们集体直呼“优雅”中就能印证这一点。

而就在这两天，网友们陆续晒出了更多DeepSeek V3加持的实用玩法

例如有网友拿DeepSeek V3和Claude Sonnet 3.5一决高下，在Scroll Hub中分别用它俩创建网站

视频地址：https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

博主在测试之后，认为DeepSeek V3完全胜出！

还有网友分享了用DeepSeek V3在AI视频编辑器中的体验。

他表示以后不用再在FFMPEG命令上浪费时间了，DeepSeek V3不仅免费，还能改变你的工作流程：

视频地址：https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

AI编程神器Cursor也能跟DeepSeek V3结合，来看一个做贪吃蛇的案例：

视频地址：https://mp.weixin.qq.com/s/ieCfWqC5gsJ-Oc7-_L3uDQ?token=904287848&lang=zh_CN

嗯，DeepSeek V3是有点好用在身上的。

对于此前公布的53页论文，也有网友关注到了一个非技术性的细节——

贡献列表中，不仅展示了技术人员，还有数据注释和商务等工作人员：

网友认为这种做法非常符合DeepSeek的调性：

分析来看，即使诸如DeepSeek-v3之类的大模型成功了，但字节、小米、理想等科技巨头在算力上的投资并不会减少，反而因为有了这些成功案例，让大家看到了行业潜力，有望进一步加码。

而且，DeepSeek的成功将给国内其他企业带来启发，如何更高效地利用算力资源，有望促使更多的中小型企业入局。

未来，随着开发成本的降低，AI应用及软件有望迎来大机遇。

12月28日，由中央广播电视总台和国务院国资委联合制作的大型系列纪录片《大国基石》第三期推出《算力引擎》，明确提出算力即国力，它是数字经济时代的新质生产力。

截至2023年，中国算力总规模位列全球第二，累计建成国家级超算中心14个，全国在用超大型和大型数据中心达633个、智算中心达60个。

今日，算力板块表现活跃，领跑市场。

金融头条

汇聚资深金融界人士精华推荐，每天精选若干条对资本市场影响重大的文章或报告，帮助读者提升思维的深度、广度和高度。

最新文章

DeepSeek周末刷屏DeepSeek V3“报错家门”：我是ChatGPT

真相解读：中国电动车在巴西卖不动了？

Google 首席执行官：AI 开发终于放缓——“唾手可得的果实已经消失”

改命！吴柳芳账号解禁后粉丝迅速突破400万！

导致日本陷入“丢失的数十年”——莱特希泽回来了

人跑6年了、被冻结资金14亿、查封房产1021处，鸡西原副市长转移赃款细节曝光

温州首富债务危机背后：湖北宜昌老牌国企塌方式腐败涉27名高管骨干

中国60周岁以上老年人口占比突破两成！养老产业受关注

哈佛：巴黎奥运会反映了中国作为美国最重要地缘政治对手的几乎全方位崛起

特稿：中国北方首个地级市GDP破万亿烟台靠创新与工业升级突围“破圈”

18万包过！待价而沽的“院士”头衔

习近平塞媒发文提使馆被炸案：不让历史悲剧重演

412最严退市新规下，逾百家“铁公鸡”会被ST（详细名单）

十年一度，第三个“国九条”出台，前两次出后各迎一次真正大牛市

董宇辉对话海尔张瑞敏完整版：一场智慧与幽默的碰撞

今日财经金融要闻

首富急了

新修订的公司法将于2024年7月1日起施行（附：法工委负责人答记者问）

突发！东方甄选：免去孙东旭CEO职务，俞敏洪兼任

金融战？穆迪将工、农、中、建等中国八家主要银行评级下调至负面

赵长鹏认罚43亿美元，美国财政部历史上规模最大的执法行动

大模型真的让人失业：OpenAI创始人被董事会开除！

三星突然崩盘，下一个会是台积电？

A股专治不服，“华北第一操盘手”操纵金一文化，亏损超10亿…

每抽一盒烟都是射向敌人的一颗子弹：国家烟草专卖局原局长凌成兴被查！

中秋节前一天，许家印被正式采取强制措施！

国企重组释放重要信号！

中植系终于暴大雷？据传涉及金额2300亿！

现实版《盲井》？山西省精诚矿业二十年瞒报事故40起、死亡矿工43人！

中国要求超大特大城市建设“平急两用”公共设施

美对华芯片限制有松动，台积电或得到“豁免”

A股成提款机？偷摸套现30亿卖公司，荀建华带着儿子儿媳妇，开小号再上市？

中国各地招商大战渐显形式主义官媒发文警告

乡镇赌博业调查：妻离子散、家破人亡，赌博正在摧毁农村

彭博社：瑞士信贷的倒闭是瑞士稳定声誉的污点！

国资委：更大力度布局前瞻性战略性新兴产业，在集成电路、工业母机等领域加快补短板

人民日报：中国顶尖人才流失居世界第一，日本高端外国人才66%来自中国

全面注册制正式实施，私募布局低估值国企

热搜第一，美国俄亥俄刷屏，毒云漫天！

开工大吉！2022年我国货物进出口总额同比增长7.7%，贸易顺差58630亿元，全球第一

日荷同意限制对华出口先进晶片设备，中国制定1万亿元对半导体产业扶持计划

沙特不再以美国为中心，与中国签署34项投资协议，包括直接用人民币购买石油

冯子健：最终可能80%-90%的人都会经历感染

蒙古国爆发大规模抗议,示威者冲击国家宫，中方：若蒙方提出请求，会依法依规提供必要协助

原油近6个月的跌幅达32%！美国三大股指全线下挫！印度3季度GDP增长7.5%，超英国成全球第5！

起底核子基因：已做核酸检测逾7亿人次，青岛子公司刚成立

湖南“金融枭雄”高调跑路，200亿未付，10万人哭了

二十大新闻：全面禁止洋垃圾实现固体废物零进口目标

高管无法来华影响外商投资热情？国家发改委这样回应美国媒体提问

非法赚取至少215亿港元，35名属下全部认罪，涉案金额高达8237亿！被控289项罪

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉