蛇年吉祥

百科   2025-01-29 01:00   北京  

春节好!

蛇年来临之际,中国一家名不见经传的人工智能(AI)企业杭州深度求索推出了Deepseek-R1开源模型。以其难以置信的低成本(训练成本不到6百万美元)和能够比肩AI界巨头openAI的闭源模型chatGPT4的性能在AI界掀起了一场革命。

第一个在这场狂潮中被打得鼻青脸肿的是英伟达,其股价在1月27日收盘时已经暴跌17%,市值跌去了约5890亿美元。纳斯达克的总市值当天跌去了约一万亿美元。

美国股市动静之大连懂王都坐不住了,当然他未必懂啥叫大模型,但他知道股市市值比啥都重要。要是听任美国股价就这么扶摇直下,那他这个大统领的宝座可就悬了。所以得出来安抚一下。

根据深度求索发布的论文,Deepseek与主流产品的区别在于它使用了混合专家模型(MoE)和强化学习(RL)以及独创的多头潜注意力(MLA)机制。从而大幅度降低了训练成本。而国外企业的训练成本一般被认为是上亿美元。因此Deepseek趟出了一条新路,不是像之前的国内外企业那样堆算力,而是优化了算法,降低了对硬件的要求。深度求索表示DeepseekR1使用了2000块英伟达的H800型GPU卡,这是一种针对中国市场的阉割版GPU卡,其性能不如英伟达的A100卡。与openAI、Meta、微软之类动辄使用上万块A100卡的产品相比其成本只及后者的零头。足见Deepseek推出后给世界AI领域带来的轰动效应。

尤为可贵的是Deepseek核心团队里都是中国大陆自己培养的人才,基本没出过国,其中来自北大7人,清华4人,北邮1人,北航1人,中山大学1人。可以说,Deepseek的成功显示出中国青年科技人员的创新能力达到了出人意料的高度。

Deepseek是大语言模型(LLM),可以根据需要改写为视觉语言模型(VLM)。深度求索在英伟达股价暴跌当日发布了开源多模态人工智能模型 Janus-Pro-7B,也可以处理图像以及生成视频。

尽管没有Deepseek在军事领域应用的实例,由于其已经开源,其设计思想是很有可能被国内外的军工企业或研究机构借鉴来升级或改写自己的AI模型。比如,最近国防科技大学电子科学学院刘永祥和刘丽教授团队就提出了世界上首个公开发表的SAR图像目标识别基础模型SARATR-X 1.0。该模型是基于transformer架构的,如果参考Deepseek的成果,不知在降本增效方面能有多大的进步?

但无论怎么说,Deepseek横空出世,对于提升包括军事领域在内的各种行业大模型性能有着非比寻常的意义。两三年里可能看不到成果,但五到十年后就有可能会出现颠覆性的局面。我希望,到那个时候,中国会是做得最好的那个。

asiavikin
军事杂谈
 最新文章