DeepSeek异军突起,每次最佳实践的迭代,都可能对前一次带来毁灭性打击

职场   职场   2025-01-28 00:02   四川  

关注公众号回复1

获取一线、总监、高管《管理秘籍》

在之前的文章《AI的非对称性》我们有一个观点,做产品要着眼于明年,原因有二:

第一,当前AI模型训练和推理成本依旧高昂,一般玩家难以承担;模型响应速度仍有改进空间,直接影响产品体验。

若在现阶段推出产品,不仅面临资费压力削弱盈利能力,还可能因用户体验欠佳获得负面市场反馈,甚至被前置抄袭,打击团队信心与发展。

第二,AI模型的更新速度显著加快,行业最佳实践不断刷新。

过早基于现有模型进行设计,可能因半年后更高效、更经济的模型出现而导致设计过时或资源浪费。

因此,产品设计应尽量依赖最新模型,以降低重构成本、提升长期竞争力。

我以为这个时间点应该是25年年底,却不想deepseek在春节投下了重磅炸弹!

unsetunsetdeepseek异军突起unsetunset

一、效果很好

在我印象中DeepSeek-R是第一款直接剑指ChatGPT又取得了不错成绩的国内模型,从数据来看很硬:

所有大模型发布初期多少会有效果夸大部分,但在我亲测使用的情况下:个人评价还是很高的,这其实是令人震撼的。

二、私有化部署

在考虑其低成本开源,并且开放训练手册(学习成本)等特性,新的机会也诞生了:

基于deepseek-R1模型 + 优质数据,使用工程或微调手段,能达到之前必须依赖GPT才能达到的效果

要特别注意,deepseek-R1可是能私有化部署的!这解决了医疗、金融等很多行业的安全性问题!

当然,研发过程中我依旧是最初的观点:研发要着眼于半年后,依赖最强大的模型

三、成本优势

在24年5月,DeepSeek就发布的一款名为V2的开源模型。

其性价比奇高:推理成本约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

大模型最终效果一定离不开:数据(你们猜数据供应商是不是通用的?)、算法、算力三方纠缠。

区别于其他公司,DeepSeek提出的一种崭新的MLA架构,把显存占用降到了过去最常用的MHA架构的5%-13%。

同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

其实,抛开效果很好这一基本元素,私有化部署与成本优势都在其次;但在效果尚可这一前提下,成本优势就有巨大身位领先!

因为,应用层玩家看不懂这些东西,我们会用脚投票,投票依据首先是【效果】其次是【成本】

unsetunset对AI应用的启示unsetunset

站在工程应用的角度,对于基座模型的选择只有三个考虑点:

  1. 第一,谁效果好我用谁;
  2. 第二,谁便宜我用谁;
  3. 第三,政策、业态要求我用谁,我就用谁;

之前最好用的AI产品的两个路径是:

  1. 直接用API接口;
  2. 配合API接口叠加一些RAG技术;

也有少量财大气粗的公司在做预训练或者微调,但如果预训练或微调的成本只有原来的1/10,那么对我们的技术路径会有非常大的影响

最佳实践的迭代,都可能对前一次最佳实践带来毁灭的打击

这意味着,对很多领域公司,非对称性的机会又来了,有几个点:

  1. 组织优质数据的成本可能仅有原来的1/10;
  2. 之前一些由于成本不愿意微调的公司,现在有更多的路径选择;

这里简单提下几条AI产品技术路径。

提示词 VS RAG VS 微调

在AI应用落地中,提示词、RAG(检索增强生成),以及微调是三种常见的技术路径。它们各有特点,适合不同场景需求:

对比维度提示词RAG微调
定义通过优化输入文本,引导现有模型生成预期结果将外部检索系统与模型结合,增强生成内容的准确性使用特定领域数据对模型进行二次训练,提高定制化能力
开发成本极低,无需模型修改中等,需要搭建检索和存储系统高,需要大量优质数据和计算资源
技术复杂度中等,需整合检索系统和模型高,涉及数据清洗、标注和训练流程
适用场景灵活、轻量级需求,如客服对话、创意文案需要实时更新或动态领域知识,如医疗、法律咨询高精度、高专业性需求,如金融分析、企业知识问答
优点快速、无成本、简单易用知识扩展能力强,适合知识动态变化的场景效果精确,满足专业化和领域化需求
局限性受限于基础模型能力,难以满足高专业性或精度需求对检索系统和知识库质量依赖较大开发周期长,成本高,不适合快速变化的需求
响应速度较快,但受检索系统效率影响较慢,需事先完成模型训练
扩展性高,直接基于现有模型中等,依赖知识库更新与维护低,需重新训练模型
典型应用客服自动回复、生成文案、创意触发医疗问答、法律建议、实时行业动态行业专用AI工具、精准预测分析

从底层逻辑来看,提示词、RAG 和微调的本质都是在影响模型的输入输出权重,只是作用方式和影响深度不同:

  1. 提示词:通过优化输入,引导模型内部已有的权重在不同路径上发挥作用,本质是利用模型现有权重的最佳组合,属于浅层引导。
  2. RAG:通过外部检索引入新的上下文,将额外信息作为输入嵌入模型,改变其权重分布。本质上是动态扩充输入信息维度,让模型在已有权重基础上生成更准确的输出。
  3. 微调:直接通过新增训练数据调整模型内部权重分布,深度影响模型在特定领域的输入输出关系。本质是重新校准模型,使其更适合某些任务。

三者的差异在于对模型输入输出权重的影响深浅:提示词影响轻微、RAG扩展输入、微调直接改变权重参数。

其中,RAG的底层逻辑相似,都是为优化输入与输出,但微调通过直接调整模型权重,从根本上改变模型能力

DeepSeek横空出世,对于各个公司技术路径选择会有深刻影响,需要提前布局。

unsetunset结语unsetunset

AI领域的演进总是充满变数,DeepSeek 的突围正预示着技术路径的新一轮洗牌。

对于大多数企业尤其是小R玩家来说,如何在不确定的技术浪潮中找到自己的节奏和方向,是当下最重要的问题。

以下是几个建议:

一、技术不是目的,适配才是关键

产品研发切忌过度设计或追求“最优模型”,重要的是结合实际需求,找到“刚好够用”的技术解决方案,既降低成本,又避免资源浪费。

二、数据为王,规则驱动

优质数据和明确规则是AI产品成功的核心。深耕行业知识、挖掘未被系统化的数据,是未来的突破口,也是AI产品竞争力的关键。

三、不要迷信AI,扬长避短

AI是工具,使用它的前提是了解它的优势和局限。只有扬长避短、合理分配任务,才能让AI为业务带来真正的增值。

四、保持耐心,坚守初心

AI产品的开发注定是一场持久战。无论是提示词的优化,还是技术路径的选择,都需要冷静思考和持续调整。

DeepSeek 的崛起表明,当技术成本降低、能力门槛放宽,市场将迎来更多的可能性,只不过最终结果如何,还得留待时间观察。

然而,这也意味着竞争的加剧。

正如我们所探讨的,未来的技术路径将更多元化,企业需要时刻警惕 “最佳实践” 的更新迭代,抓住每一次非对称性机会。

最后,产品的成功不仅是技术的胜利,更是商业逻辑的胜利。用技术创造真实价值,专注用户体验,做好长期布局,才能在瞬息万变的市场中找到自己的位置。

叶小钗
原为鹅厂、ctrip、baidu、一线开发,B站技术专家,某独角兽技术负责人,AI产品项目负责人,CEO数字分身负责人
 最新文章