全球AI大模型2024年收官之战,荣誉给到了来自中国的DeepSeek-V3。在2024年12月26日晚间,国内深度求索公司推出的全新开源模型DeepSeek-V3上线后在国内外AI圈刷了屏。这个AI大模型有何过人之处能得到业内开发者青睐?一句话总结起来就是:DeepSeek幕后团队在非顶尖硬件配置基础上,用远低于国际科技巨头成本,通过结构创新开发出了一个性能叫板GPT-4o便宜且好用的AI大模型,而且还是开源的!虽然目前开源的版本尚不支持多模态输入输出,但这不耽误网友们的膜拜之情:国产之光!天不生DeepSeek-V3,开源模型万古如长夜!夸赞这才是真“Open”AI!官方资料显示,DeepSeek-V3自研了MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练,性能上已甩开迄今为止发布的所有开源模型。在大多数基准上,已比肩乃至优于世界顶尖闭源模型GPT-4o,而且PK起来极具性价比。关键的是,有网友查阅资料后发现,DeepSeek-V3整个训练仅花费557.6万美元,这比OpenAI、Meta等用于预训练大型语言模型动辄数亿美元的成本要低得多。而且由于美国出口管制,DeepSeek-V3无法使用NVIDIA最顶尖的计算集群,而是在2048个带宽缩减版NVIDIA H800 GPU集群上进行的训练,开发者们通过各种优化训练方法实现了如此效果。比GPT-4o更好的100%开源模型,这事儿搁到国外AI圈也是有点炸裂。12月接近尾声,本来很多开发者们在期待马斯克的xAI(Grok)能否在2024年结束前抛出一款重磅产品叫板Open AI和谷歌,但现在看来DeepSeek-V3把压力给到了Grok。独立分析AI模型和托管提供商ArtificialAnlys通过独立基准测试证实,DeepSeek-V3模型领先于迄今为止已发布的所有开源权重模型。包括Meta的Llama3.3 70B和阿里巴巴的Qwen2.5 72B,击败了OpenAI的GPT-4o(8月)并接近Anthropic的Claude 3.5 Sonnet(10月),是目前开源AI领域最新的领跑者。DeepSeekV3与Anthropic的Claude3.5 Sonnet 性能相当,但低于Google的Gemini2.0Flash和OpenAI o1系列,不过值得注意的是,DeepSeek-V3具有相当出色的编码和数学推理能力,在HumanEval中的得分为92%,在MATH-500中的得分为85%。此外,DeepSeek-V3的多语言性能也很强大,在ArtificialAnlys基准测试的所有语言中始终优于其他开放权重模型,而且通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS提高至60TPS,体验也很流畅。可圈可点的是其代码能力。Aider LLM排行榜使用基准测试来衡量LLM使用流行语言的编码能力,包含许多流行编程语言的练习:C++、Go、Java、JavaScript、Python 和Rust等。DeepSeek-V3在Aider LLM榜单里的排行领先于市面上已有的非o1类模型。这么强的开源AI大模型怎么收费呢?有“AI界拼多多”之称的DeepSeek这次拿出了不少诚意。官方表示先上一个为期45天的优惠大促销:发布日起至2025年2月8日,DeepSeek-V3的API服务价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens2元。优惠期过后,会调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。这性价比在目前AI市场上是个啥水平我们可以来看一张图:
可以说是同等性能水平上它最便宜,而同等价位左右的竞品中它最强,市场卡位相当精准。如果这样的价格对比还不够明显,那么和GPT-4o放在一起就知道了,大概是4o的十分之一,价格砍了不止一刀。有外国网友称赞,这件事放在当下非常有趣,美国正竭尽全力阻止中国在技术上取得进步,尤其是在人工智能领域。但中国的开发者们做出了一个绝对漂亮的回应:“尽管你们有那么多限制,但我们只用你们1%的成本就建立了一个世界级的人工智能模型,使其效率高于你们现有的同类模型,并将其开源供全世界使用。” 网友们将DeepSeek-V3的推出视作智慧战胜金钱和科技巨头的一次胜利,中国开发者们正在试图改变游戏规则,并再次证明,人类的智慧总能找到新出路。此外,DeepSeek-V3的推出也被视作是开源AI与闭源AI之间差距的又一次重大缩小,有望在不同任务上实现几乎相近的性能。此类系统的开发对行业来说非常有利,因为它正在消除少数大型人工智能公司统治AI棋盘的可能性,也为更多成本有限的企业在编排堆栈时提供了多种选择和使用方式。点开DeepSeek社交账号主页,不是公司业务介绍,而是一句颇有内涵的标语:用好奇心解开通用人工智能的奥秘,用长期主义回答本质问题。这可能是其幕后团队能够做出这样开源产品的信条和动力。据公开资料了解,DeepSeek(深度求索)创始人梁文峰出生于1980年代广东一个五线城市,本硕就读于浙江大学,攻读人工智能专业,同时,梁文峰还是幻方量化的实际控制人,幻方量化是目前国内头部量化私募机构之一。
2008年,梁文峰开始致力于量化对冲领域的研究,2015年创立了幻方量化,之后规模扩张迅速,而DeepSeek的创立源于梁文峰在幻方量化时期对AGI的向往和热衷,该公司第一期研发投入就是幻方自主出资的,且旗下拥有 “萤火超算” 万卡级别的算力加持。据悉,“萤火超算” 是由幻方构建、科技大厂之外为数不多的AI算力中心,配备了大量英伟达高性能计算卡,国内具备同等算力的企业不超过5家。所以有人认为,DeepSeek可能是目前中国大模型公司里最无压力的一家创业公司,因此能以截然不同的状态去追求理想中的AGI,不需要急于向投资人或市场证明什么,沉下心来去做产品内核创新和突破反而能做出好成绩。有消息称幻方对DeepSeek有独立拆分上市的计划,目前可能正在推进中。关于类似于OpenAI等闭源大模型的未来,梁文峰曾在采访中表示,在创新和颠覆性技术面前所谓的闭源护城河也只是短暂的;中国的AI不能只做跟随者,当下要有敢于做前沿创新的信心。如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!欢迎扫描下方二维码,添加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!