来源|21世纪经济报道、财联社、钛媒体AGI、证券时报、DeepSeek官方网站等
近日,DeepSeek持续爆火。
1月28日凌晨,DeepSeek官网的服务状态页面显示:“近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式,已注册用户可以正常登录,感谢理解和支持”。
图源:DeepSeek官方网站
出圈后,DeepSeek的服务需求激增。此前据媒体报道,DeepSeek旗下AI服务经历了多次宕机,可能与新模型发布后的访问量激增有关。
1月20日,DeepSeek推出了AI模型R1,推出后不久,R1就凭借其性价比、开源及推理能力的提升等方面获得了广泛关注。DeepSeek表示,最新的AI模型可以与OpenAI的ChatGPT媲美,且开发成本远低于竞争产品。
DeepSeek也被认为是大模型行业的最大“黑马”,在外网被不少人称为“神秘的东方力量”。
据大象新闻1月28日消息,DeepSeek创始人梁文锋的高中同学兼好友陈先生对记者表示,“梁文锋的衣着打扮和为人处世都非常低调,淳朴有善心,此前以个人名义捐了很多钱。看到他火了很开心,前几天我给他发信息祝贺,他还说会回吴川过年,但今年要躲起来。”
除夕“放大招”
DeepSeek发布了新款人工智能模型
DeepSeek除夕“放大招”。
据财联社,北京时间1月28日凌晨,就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,Janus Pro采用MIT许可证,在商用方面没有限制。
据钛媒体,简单来说,这个模型既能让AI读图(基于SigLIP-L),又能让AI生图(借鉴LlamaGen)。要知道,GPT-4o的图片生成多模态模型至今没开放。
具体来说,作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。
从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。
“最重要的是训练:我们在单个训练步骤中根据指定的比率混合所有数据类型。我们的 Janus 使用 HAI-LLM [15] 进行训练和评估,这是一个构建在 PyTorch 之上的轻量级且高效的分布式训练框架。整个训练过程在 1.5B/7B 模型的 16/32 个节点的集群上花费了大约 7/14 天,每个节点配备 8 个 Nvidia A100 (40GB) GPU。”
“DeepSeek风暴”:美芯片股大跌
英伟达市值一夜蒸发4.27万亿元
1月28日,美股三大指数收盘涨跌不一。科技股表现分化,英伟达等半导体板块暴跌,DeepSeek新模型以低成本实现高性能,引发市场对科技巨头估值担忧。该模型登顶美中应用下载榜,性能强成本低,对全球算力冲击巨大。
wind美股科技七巨头指数成分股情况
大型科技股涨跌不一,英伟达下跌16.86%,创历史上最大单日个股蒸发规模,市值蒸发5888.62亿美元(约合人民币4.27万亿元);谷歌下跌4.03%;特斯拉下跌2.32%;微软下跌2,14%;亚马逊上涨0.30%;Meta上涨1.91%;苹果上涨3.25%,截至收盘市值为3.5万亿美元,再度成为全球市值最高上市公司。
不过DeepSeek自己对此却有不同看法,其表示英伟达股价暴跌与它无关。
英伟达发表声明称,DeepSeek的进步表明了其芯片在中国市场的有效性,未来将需要更多的英伟达芯片来满足对DeepSeek的服务需求。
据证券时报报道,DeepSeek的发布引发了对科技巨头越来越多AI投入的质疑。
据统计,2024年1—8月,微软、Meta、谷歌、亚马逊总计向AI数据中心投入1250亿美元,包括AI资本支出、总数据中心运营成本,现金运营费用、软件、折旧和电费也纳入统计。预计2024年美国四大科技巨头全年投入约2180亿美元。
DeepSeek固然会带来AI产业格局的巨大变革,但在资本市场,美股科技股在过去两年累计的过高涨幅或是华尔街当下更为担忧的因素。