该文档围绕 DeepSeek 展开,主要涵盖大语言模型发展脉络、DeepSeek 技术原理与创新、其产生的效应以及对未来的展望等方面,核心是剖析 DeepSeek 在大语言模型领域的地位、创新点及影响,为相关研究和产业发展提供全面参考。
大语言模型发展概况
回顾了从 1945 年 ENIAC 到 2024 年生成式 AI 的发展历程,历经图灵测试、达特茅斯会议、AI 寒冬等重要阶段,介绍了 Attention、Transformer、Scaling Laws、RLHF 等关键技术在其中的作用,梳理了 2018 - 2024 年众多大语言模型的发展情况,并阐述了大语言模型的技术栈、生命周期与范式,强调预训练、后训练等环节及性价比的重要性。
模型架构创新:DeepSeek V2 采用 DeepSeekMoE 和 MLA 技术,实现稀疏激活,降低计算成本,其 236B 总参数中 21B 为激活参数,有 128K 上下文窗口;V3 进一步创新,如 Infrastructures 减少流水线气泡、MTP 一次预测多个 token 等,671B 总参数中 37B 激活参数,基于这些创新在性能 / 成本曲线上表现出色,训练成本等指标优于部分同类模型。 推理模型创新:DeepSeek R1 有多项关键创新,包括 DeepSeek - R1 - Zero 的大规模 RL 训练及发现 Scaling Laws,4 步法推理模型训练框架,GRPO 强化学习训练框架降低成本,以及推理模型蒸馏技术。在性能上,如逻辑推理能力指标上优于部分其他模型,且在不同层级测试中表现出一定优势。
市场与竞争层面:引发算力价格战,其高性价比冲击市场,使美国相关企业市场份额受影响;在开源与闭源之争中,DeepSeek R1 开源成为里程碑,打破美国企业技术封闭格局,推动行业思考开源策略。 认知与人才层面:颠覆了美国对中国 AI 水平及大模型研发成本的认知;凸显了技术型和战略型人才在大模型创新中的关键作用,指出我国大模型发展在底层技术原创性突破上的不足及人才需求。
未来展望:预测未来 AGI/ASI 还需 3 - 5 个重大突破,回顾 2014 - 2024 年重要技术突破如 Attention 等,从技术角度预计人类所有职业实现 AI 自动化需 30 年,同时提及 DeepSeek R2 可能快速发布及未来大模型在安全与推理融合等方面面临的创新挑战与机遇。
本公号新创智能交通技术AI服务,可扫码进入体验(或在后台私信公号)。