作者 | 熊德意 编辑 | 彭鉴翔
DeepSeek R1自2025年1月20日发布以来,引起巨大反响,线上线下持续发酵,成为国际AI科技讨论的热点。春节期间,笔者关注了国内、国外很多关于DeepSeek及其效应的解读报道,有的从纯技术层面深入解读,有的从非技术层面泛泛而谈,有的过度神化DeepSeek,有的则过度贬低。笔者一直从事自然语言处理、大语言模型技术研究和应用,一直关注AI大模型国内外发展动态,很多朋友因此咨询我的看法,因为线上聊天限制,通常无法全面表达观点。故此,这里从(1)算法突破、(2)模型架构创新、(3)开源vs闭源、(4)算力价格战、(5)地缘AI竞赛、(6)认知误区、(7)创新&人才&Vision、(8)能力vs安全、(9)AGI路线、(10)AI基础设施十个方面谈谈个人看法。成文匆促,主要着眼系统性,因此上面每个方面均只列出概要点,不深入展开;对技术不感兴趣或者没有强烈愿望了解的,可以直接从第三个方面(开源vs闭源)开始看;笔者认为,以上(1)-(7)是DeepSeek成功及产生巨大效应的主要原因;(8)-(10)是从DeepSeek延伸看未来AI大模型发展。
本文观点只代表笔者个人,不代表TJUNLP及相关方,才学疏浅,观点难免存在错漏,即使如此,技术发展太诱人,因此仍然忍不住斗胆抛砖引玉,希冀引起技术讨论和推动国内AI技术创新发展。
主要观点
1. DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年多(自OpenAI传闻的Q*在社交媒体上讨论)业内广泛思索的通过在训练中进行显式搜索、过程奖励模型(即Search+PRM)实现推理的“误区”;
2. DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积累了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等,这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实验室,在全世界可能也只有少数几个;
3. DeepSeek将与OpenAI等企业研发的闭源Frontier Model同等级别的模型开源出来,使得全世界研究人员、技术人员、工程师可以自己进行DIY、在推理方向上进行进一步研究,打破了美国AI第一梯队企业的技术封闭;
4. DeepSeek V3底层架构和训练方法的创新,使得其可以在芯片禁运受限条件下,以高效率低成本方式实现模型的训练,捅破了大模型训练成本上亿美元的美国硅谷AI大模型训练“窗户纸”;
5. DeepSeek V3技术创新导致算力成本降低及R1的成功,成为NVIDIA市值近期上千亿美元调整的导火索、美国芯片禁运及地缘AI竞赛再次提及的催化剂;
6. DeepSeek V3及R1的连续发布,颠覆了美国人认为中国在AI领域长期都是跟随者、copycat的认知误区;
7. 国内和国外大模型的差距不在于模型能力高低,也不在于应用,而在于底层核心技术。而底层核心技术突破的最主要障碍不是算力受限,也不是数据规模和质量受限,而是缺乏足够数量的具有技术远见、敢于技术冒险的大模型人才(以上观点来自笔者2024年3月发表的《关于Sora、国内大模型及通用人工智能趋势》)。笔者在此将大模型顶尖人才分为两类:一是锐意进行大模型底层技术创新和冒险的技术型大模型人才,二是具有AGI技术远见和vision的战略型大模型人才;
8. DeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此;
9. 技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作;
10. 现阶段DeepSeek R1注重推理能力的提升,某种程度上,模型安全性有所降低,但模型安全和推理并不冲突,大模型安全需要推理能力加持,R1推理能力可以应用于大模型安全并加强之;
11. DeepSeek R1让普通大众也能够亲自感受到Scaling Law威力,即延长模型输出的response(即推理时计算),模型推理性能增加;笔者认为, Scaling Law是过去10年(2014-2024)通往AGI的5个重大技术突破和发现之一,按顺序依次为:Attention、Transformer、Scaling Law、RLHF、o1/R1;相关调查表明,大部分AI专家认为,本世纪中叶实现AGI的概率超过50%;o1和R1的突破,将大模型从chatbot级提升至推理者级,笔者认为,未来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现 “人工智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未探明方向上的0-1创新;
12. DeepSeek技术虽然降低了大模型训练和推理的算力消耗,但大规模的AI算力基础设施对未来AI技术发展和应用至关重要,DeepSeek的技术创新探索、实验验证等所使用的算力远不止于在经过反复验证的技术路线下训练一次模型所需要的算力成本;现阶段的AI大模型,从基础设施角度看,类似于早期的互联网,还缺乏广泛可及的“网络和通信基础设施”支撑其大规模应用;笔者认为,要实现AI的突破发展和广泛可及,类似于“信息高速公路”的“智能高速公路”基础设施建设尤为重要,算力基础设施建设和训练效率的提高两者并不矛盾。
END