有人讲外界关注中国六代机成功首飞传闻,被中国的六代机吓到了。
不仅训练成本比国外一众大模型低的离谱,效果还出奇的好。
具体有多强呢?
DeepSeek V3 是一个6710亿参数的开源大模型。
作为对比,我们熟知的阿里开源的 Qwen 2.5 系列最大的模型参数量是720亿。
Meta开源的 Llama 3.1 系列最大的模型参数量是4050亿。
重点来了,DeepSeek V3 在参数量如此巨大的情况下,只用了2048块 H800 GPU,花费了仅仅550万美金左右的训练成本,要知道,Llama 3.1 的训练成本是 DeepSeek V3 的11倍。
而且,DeepSeek V3 在多个评测成绩排名上,不仅超越了 Qwen 2.5 和 Llama 3.1,甚至还能和最顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet 打打排位。
简直强到离谱。
OpenAI可是烧了几个亿才烧出 GPT-4o 这样逆天的模型,而 DeepSeek 只花了区区 550万,零头都不到。
这还没完,DeepSeek 不仅把模型毫无保留地开源了,还发布了一份53页的技术报告,所有的细节掰开揉碎了给你讲清楚那种,生怕一众友商们学不会。
因为以前从来没有论文,能把大模型的秘密解释得这么清楚。OpenAI弄出东西了,但是论文根本没说细节,云山雾罩的,背离了业界的开源传统。
现在很多人以为美国干出了什么黑科技,其实不是,论文说的很清楚,就是这么弄出来的。
DeepSeek没有选择「1→10」而逆向选择了「0→1」,其提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构。
也正是这种独特架构,其把显存占用降到了过去最常用的MHA架构的5%-13%。
同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降,宣布了行业震惊的定价方案——API定价为每百万tokens输入1元、输出2元,价格显著低于当前市场上的其他同类产品。
套用QLoRA一作大佬的话说,这模型简直“优雅”到家了!
然而更抽象的是,如此厉害的大模型,竟然不是互联网科技巨头研发的,而是来自金融领域的头部量化——幻方量化。
因为在 DeepSeek V3 发布之前,所有人都以为大模型要做到顶流,一定要堆参数,堆GPU,大厂的军备竞赛变成了谁拥有最多的GPU,谁就是王者的氪金游戏。
而 DeepSeek V3 告诉大家,在人工智能时代,我们仍然要比智慧,比创新,不是谁烧的钱多,谁就会赢得一切。
假如DeepSeek V3 模型的训练这么节省显卡,且数据是真实准确的,那么意味着市场上的算力GPU卡已经过剩,英伟达卡在未来几年的出货量将会断崖下降。
如果大家有兴趣的话,可以去他们官网试着玩一玩。
DeepSeek V3体验网址:https://chat.deepseek.com/
相反,正是由于2024年10月,监管政策加近期市场环境的变化,幻方认为中性量化策略不赚钱,逐步降低仓位,缩减私募规模至200~300亿。如下新闻记录。
点击下方“关注我们”,避免失联
点个在看和赞吧你最赞