DeepSeek给普通人的启示
财富
财经
2025-01-28 07:31
上海
因为它用非常低的成本训练了个R1模型,其性能甚至可以比肩OpenAI的顶级推理模型o1。这直接干崩了英伟达的股价(市场开始质疑训练AI其实不用烧那么多钱囤卡)。不过让我觉得最有意思的,并不是它对英伟达股价的冲击,也不是中美AI差距的缩窄,而是它的训练方法,给了我很大的启发(在个人学习上)。R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样,它具备一定的推理能力。它跟OpenAI的o1类似,可以通过增加「思维链」(自言自语)来提高推理能力,让答案质量变高(特别是理工科题目)——而要让大语言模型具备推理能力(也就是有「思维链」的过程),过往的做法,一般是在基础模型上,通过SFT(监督微调)。这个过程类似学生刷题,老师给了大量的思维链的范例(参考问题和标准答案),然后告诉学生——学生刷的题够多了,自然就学会了用「思维链」的方式来回答。而DeepSeek在训练R1-Zero(R1的试错版本)时,则是创造性地使用了RL(强化学习)的训练方式。你跟婴儿大量地说话,TA会尝试给你一个回复,你会给TA的回复一个反馈,TA会通过反馈学到知识。一开始,婴儿是一张白纸,自然也没有「颜色」这个概念。比如,我会指着一个蓝色杯子,问我女儿那是什么颜色。她如果说蓝色,我就会跟她笑笑说你好棒;她如果说其他的颜色,我就说哎呀错了。她如果还是回答蓝色以外的颜色,我同样还是会给她「回答错了」的反馈。她会提炼出「颜色」这个维度(不同频率段的可见光在视觉上的呈现),并且认识了什么样的颜色是蓝色。过往强化学习一般用在游戏策略之类的复杂、开放式任务上。因为训练时并没有被提供「标准答案」,所以AI有时候可以提出非常具有创造性的解决方案。比如2016年AlphaGo对战李世石时,就下出了职业棋手都看不懂的「第37手」。这也是为什么我们会觉得小孩子往往更具备创造力——他们没有那么多「标准答案」的条条框框。稍微来个表格对比下两种训练方式(来源:DeepSeek生成)——从小接受九年义务教育的我们,在高考制度的压力下,大多数人已经没法像一张白纸那样去进行强化学习了。但是!在完全不熟悉的领域,其实我们跟白纸也没什么差别。举个例子,比如我以前在麦肯锡做咨询的时候,虽说绝大部分项目都是金融机构组的,但是我也做了一些其他行业的项目(地产/能源/医药/物流等等)。而在其他项目上时,我有个发现:很多在金融业里司空见惯的做法,在其他行业里却是他们从来没想过的「创新」。所以我们也看到越来越多的创业成功例子,其实是完全不懂行业的人「反常识」式的创新做出来的。比如马斯克之前从来没有做过火箭,所以才会坚持行业大部分人觉得是「异想天开」的火箭回收计划。当然,也不是那么多人都有办法转行、在完全陌生的行业从零开始。所以最最简单的,是反向操作:多看看不同领域的书,看看其他领域有没有什么方法论,可以应用到本行业。这是一个同在创业的好友分享的方法,他每天饭后会抽1到2个小时做这个思考训练——一个人找个空旷的地方散步,选择一个自己以前从没系统性思考过的问题,不一定和自己的工作相关,可以是跨行业的,也可以是生活方面的。像我以前写的「解题者」系列文章也是类似的,可在文末点击相关链接回顾。当然,关于DeepSeek的这篇论文,还有更有意思的。通过强化学习训练出来的R1-Zero(R1的试错版本),已经具备了比肩o1的推理能力。但是!DeepSeek也发现,R1-Zero会有中英文混杂、可读性差等问题。这就像一个天才儿童,自创了一套答题的方法,但它之前没看过「标准答案」,没有系统学过数学的规范表达,所以只能「语无伦次」地表达。因为我们给女儿提供的是双语教育,家里是我说英文,其他人基本说中文,所以她也会大量地中英文混杂,而且句子也说得不是很完整。为了解决这个问题,DeepSeek重新训练了模型(也就是后来的R1)。这么做之后得到了现在正式推出的R1,解决了「语无伦次」的问题。类比我女儿的学习,因为她也会大量观察大人之间的对话(相当于给了一些冷启动数据)。她会发现,她妈妈会时不时跟我说英文,跟其他人说中文。所以随着她逐渐长大,她现在只跟我说英文,跟其他人说中文。写到这里,我开始在想,人类会不会也是高维生命训练出来的AI?这里也推荐一个有意思的项目——Spore(币圈割韭菜项目,不代表推荐投资,只是概念很有意思)。这个项目做了个AI智能体,AI可以自己发推、发币,给自己赚电费。而且AI还可以不断分裂后代,并遗传一些特征,也可以产生变异,后代也可以发推、发币、跟其他AI交互,尽可能让自己有生存和繁衍的可能(AI也会因为交不起电费而死亡)。今天就说到这儿吧,今天除夕了也,预祝大家新春快乐!从财务角度思考人际关系
跟餐饮行业的人学投资
用营销学做个人品牌
从投资的角度聊健身
用财务的角度看亲密关系
用决策科学来择偶
P.S. 更及时全面的资讯,可以看看我们的另一个公号——
「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的,不构成任何投资建议。一切请以最新文章为准。✍🏻 图文/ @狐狸君raphael,曾供职于麦肯锡金融机构组,也在 Google 和 VC 打过杂。华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者,著有畅销书《风口上的猪》《无现金时代》。《I calculated the effective cost of R1 Vs o1 and here's what I found : r/LocalLLaMA》《DeepSeek登顶中美苹果应用商店免费应用排行榜》《DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿|人工智能_新浪科技_新浪网》《英伟达为中国“降规”:H800变身为H20|gpu|英特尔|hbm|骁龙+移动平台_网易订阅》《与AI互动的信息时代黎明:吃掉自尊心才能拓展认知边界-虎嗅网》《AlphaGo之父说,关于围棋,人类3000年来犯了一个错!》《大模型的“神之一手” - 知乎》《天才创始人对谈AI教父Hinton:多模态是AI的未来,医疗将发挥AI最大的潜力-36氪》《专访AlphaGo”教练":要不要和中国选手比一场_新闻频道_中国青年网》《仅凭500万美元的AI模型 DeepSeek是如何震惊硅谷的?_新浪财经_新浪网》《中國DeepSeek撼動AI生態?美分析師質疑成本》《"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via》《Reinforcement Learning"》《强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作》《Does DeepSeek spell doomsday for Nvidia and other AI stocks? Here’s what to know. - MarketWatch》《一夜之间,美国AI圈都在讨论DeepSeek,股民们焦虑“这是在做空英伟达吗?” - 华尔街见闻》《DeepSeek新模型大揭秘,为何它能震动全球AI圈 - 华尔街见闻》《Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释 - 华尔街见闻》《Meta genai org in panic mode | Artificial Intelligence - Blind》《DeepSeek-V3 Technical Report》《DeepSeek利空算力?》《消融实验(Ablation Study)概念、目的、步骤、示例、意义和实例(图像分类模型的消融实验)-CSDN博客》