就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品!
在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
1月28日,美股三大指数收盘涨跌不一。科技股表现分化,英伟达等半导体板块暴跌16.86%,市值蒸发5888.62亿美元(约合人民币4.27万亿元)。DeepSeek新模型以低成本实现高性能,引发市场对科技巨头估值担忧。该模型登顶美中应用下载榜,性能强成本低,对全球算力冲击巨大。
新加坡前总理李显龙妻子何晶,对DeepSeek最新的解释(原文翻译):
让我用简单的语言来剖析一下DeepSeek的人工智能创新为何令人惊叹(甚至可能威胁到英伟达2万亿美元的市值)。首先,一些背景情况:目前,训练顶尖人工智能模型的成本高得离谱。OpenAI、Anthropic等公司仅计算方面就花费1亿多美元。它们需要配备数千个价值4万美元的图形处理器(GPU)的大型数据中心。这就好比运行一个工厂需要一整座发电厂。DeepSeek出现了,他们说:“哈哈,如果我们只花500万美元来做这件事呢?”而且他们不只是说说而已,是真的做到了。他们的模型在许多任务上与GPT - 4和Claude不相上下甚至更优。人工智能界(就像我那些十几岁的孩子说的那样)被震撼了。怎么做到的呢?他们从根本重新思考了一切。传统人工智能就像是用32位小数来写每个数字。DeepSeek则像是说:“要是我们只用8位小数呢?准确性仍然足够!”结果——所需内存减少了75%。然后是他们“多标记”系统。普通人工智能阅读起来像一年级小学生:“那……只……猫……坐……在……”DeepSeek能一次性读取整个短语。速度是原来的两倍,准确性达到90%。当要处理数十亿个单词时,这一点很重要。但这里真正巧妙的地方在于:他们构建了一个“专家系统”。不是让一个庞大的人工智能试图知晓一切(就像让一个人同时是医生、律师和工程师),而是有专门的专家,只在需要的时候启动。传统模型?1.8万亿个参数一直全部处于活跃状态。DeepSeek呢?总共6710亿个参数,但一次只有370亿个活跃。这就好比有一个庞大的团队,但只为每项任务召集实际需要的专家。“但是等等,”你可能会说,“肯定有陷阱!”这就是疯狂的地方——这一切都是开源的。任何人都可以检查他们的工作。代码是公开的。技术论文解释了一切。这不是魔法,只是极其巧妙的工程设计。为什么这很重要呢?因为这打破了“只有大型科技公司才能涉足人工智能”的模式。你不再需要价值10亿美元的数据中心了。可能几块不错的GPU就够了。对于英伟达来说,这很可怕。他们的整个商业模式建立在以90%的利润率销售超级昂贵的GPU上。如果突然每个人都能用普通游戏GPU做人工智能……嗯,你就明白问题所在了。更关键的是:DeepSeek是用不到200人的团队做到的。与此同时,Meta的团队光是薪酬就超过了DeepSeek的全部训练预算……而且他们的模型还不如DeepSeek的好。这是一个典型的颠覆性创新故事:现有企业优化现有流程,而颠覆者重新思考根本方法。DeepSeek问的是“如果我们更聪明地做这件事,而不是单纯投入更多硬件呢?”当然,像OpenAI和Anthropic这样的大公司不会坐以待毙。他们可能已经在实施这些创新了。但效率这只精灵已经从瓶子里出来了——不可能再回到“只管投入更多GPU”的做法了。最后的想法:这感觉像是我们会回顾的一个转折点。就像个人电脑使大型机变得不那么重要,或者云计算改变了一切。人工智能即将变得更加易获取,成本也更低。问题不在于这是否会颠覆现有的参与者,而在于速度有多快?这也是全球市场下跌的原因之一。觉得有用的话, 记得关注哦!资料参考 /21财经客户端、DeepSeek官方网站、
财联社、证券时报、Wind等
版权归原作者所有,如有侵权请联系我们删除