Deepseek,AI神话的祛魅者
财富
2025-01-31 12:30
北京
弱小,在生存的挑战中从来不是无法逾越的障碍,傲慢与偏见才是阻碍前行的真正绊脚石。在全球AI技术的舞台上,当OpenAI以GPT-4的强势姿态定义AI霸权,英伟达则凭借其在算力领域的垄断地位筑起了一座难以逾越的高墙,似乎让全球AI技术的发展变成了一场只属于少数人的封闭体系“贵族游戏”。然而,正是在这样看似固若金汤的局势下,中国初创企业DeepSeek犹如一股清流,以一场轰轰烈烈的“技术平权运动”,勇敢地在高墙上撕开裂缝。这场变革的背后,深刻地揭示了技术发展的两大趋势。一方面,是技术开源共享的理念正在逐渐成为主流,它呼唤着多方智力资源的共同参与,以推动技术的不断革新与进步。这种开放与包容的态度,正是技术发展的源动力所在。而另一方面,则是资本逐利的本质,使得一些势力试图构建封闭体系,以攫取垄断利润。而封闭体系的参与者往往短视,在他们的叙事体系中,由于大模型的一轮训练就要耗资数亿美元,除中美以外的国家在如此高昂的成本面前只能望而却步,因此AI赛道只会有中美两个玩家,他们只需要锁死中国的高算力芯片供应,并且把AI算法完全封闭,就可以保证美国的垄断寡头笑到最后。但这不仅阻碍了技术的正常发展,更违背了技术造福人类的初衷。DeepSeek的模型训练成本只需要六百万美元,并且它的论文与模型参数完全开源,这也让更多机构加入AI赛道成为可能,DeepSeek也不依赖于英伟达的GPU,DeepSeek的崛起,无疑是对这种封闭体系的有力回击,同时也宣告了封闭体系寡头想完全赢得这场所谓战争,独享AI赛道全部利润终将失败。从历史上看无论是移动时代的安卓 vs iOS还是PC时代的windows vs Linux,开源和封闭的技术体系一般都是共同存在且相互借鉴的,而目前的问题在于强大的AI科技寡头妄想堵死开源技术体系的发展上限,但笔者认为这种想法过于傲慢,甚至不切实际。AI不与黄朗便,院深墙高锁智桥。目前的情况揭示了AI领域封闭体系的深刻本质——一种资本与技术合谋的“双重封锁”。从根本上来看,这种封闭性不仅阻碍了技术的创新与进步,更在无形中加深了行业壁垒。首先,算法黑箱化成为了AI封闭体系的一大特征。Open AI虽然推出了强大的产品,但其内部机制却完全黑箱化,使得外界难以窥探其奥秘。更令人遗憾的是,他们的上一代产品GPT-4至今仍未开源核心架构,这意味着开发者们只能局限于API调用的层面,无法深入探究算法的本质,更无法为技术的进一步发展贡献力量。这种局面无疑限制了AI技术的多元化与开放性,使得创新之路变得愈发狭窄。其次,硬件绑定则是AI封闭体系的另一大桎梏。优秀的AI算法往往必须基于特定的硬件平台才能发挥出最佳性能,而英伟达CUDA生态便是其中的佼佼者。CUDA凭借其强大的算力优势,逐渐将这一优势转化为行业标准,使得非英伟达GPU在AI领域逐渐边缘化。这种硬件层面的绑定不仅限制了算法的选择与应用范围,更在一定程度上阻碍了技术的普及与推广。AI领域的封闭体系不仅阻碍了技术的创新与发展,更在无形中加深了行业壁垒。最坚固的堡垒,常自内部瓦解。封闭体系,看似铜墙铁壁,能御外侮,实则暗藏结构性危机,难以察觉却根深蒂固。此危机源于体系内部的“既要又要”之矛盾:一面追求自我封闭、完善,力图仅依靠自身力量保持领先,维护纯净与稳定;一面又难以割舍对外部资源与信息的依赖,需不断汲取以续活力与竞争力。此矛盾使封闭体系在追求封闭的同时,亦面临开放性的严峻挑战。一旦内部矛盾失衡,连锁反应即发,体系崩溃在所难免。首先封闭体系难以完全封闭,因为完全封闭则会让自身退化成一款只存在于PPT上的产品,无人买单。但开放又害怕抄袭,只能半遮半掩,最终走向末路。而且封闭抑制创新也是个不争的事实。根据ARK投资2023年数据,GPT-4迭代速度同比下滑四成。最重要的是封闭体系内部熵增会悄然累积,当内部矛盾与压力累积至极限,体系便如年久失修的堤坝,轰然倒塌,自我瓦解。因此对任何组织或体系而言,保持活力,通过竞争及时化解内部熵增,才是长治久安之道。DeepSeek的惊喜:算法效率革命与开源技术平权十年一觉科技梦,赢得青史薄姓名。个人认为DeepSeek并没有有意针对Open AI+英伟达的封闭技术体系,他们能以几十分之一的价格提供接近Open AI的服务水平,只是他们顺手实现的效果。他们在技术上的创新真正令人耳目一新。通过先进的强化学习(RL)技术,DeepSeek成功实现了推理链路径的自动生成,这一创新相较于传统的监督学习方法,在复杂问题解决效率上实现了显著提升。而且DeepSeek的产品不仅输出完整的推理链,更在细节上展现了对问题深刻的理解与分析。用户在仔细观察其推理过程时,可能会发现其中存在的某些错误,但值得注意的是,这些错误都是可以接受的。在RL评分体系中,只要推理链中的错误能够引导模型向更优解逼近,就能够在评分中获得更高的认可。这一机制鼓励模型在探索与试错中不断前行,而非仅仅拘泥于完全正确的结果。这种对推理能力训练的新视角,正在逐渐改变我们对AI模型性能评估的传统认知。它告诉我们,在追求高效与准确的同时,更应注重模型的自我学习与进化能力。正是基于这样的理念,DeepSeek在逻辑推理领域取得了长足的进步,其模型能力已经与Open AI等业界巨头基本齐平,共同推动着人工智能技术的边界不断向前拓展。神经元动态休眠这一创新理念,应该是从脑科学领域汲取到的智慧。它巧妙地模拟了大脑中神经元的工作模式,就像我们的大脑也分为快速直觉与慢速分析等模块一样,DeepSeek在运行过程中,只让部分神经元参与工作,这一策略不仅极大地提升了运算效率,还显著降低了30%的推理能耗。这一突破性的进展,使得千元级显卡运行百亿级模型成为可能,为人工智能的发展开辟了全新的道路。而FP8精度革命,则是数据处理领域的一次大胆尝试。它摒弃了传统上广泛使用的FP16精度处理单元,转而采用只有8位长的处理单元对数据进行编码。这一转变,在保证模型精度的前提下,将显存占用大幅度压缩至原来的1/3。这不仅意味着我们可以更高效地处理大规模数据集,还为深度学习模型的训练和推理带来了前所未有的性能提升。FP8精度革命的出现,无疑将推动人工智能领域迈向更加高效、节能的新阶段。这些创新让AI大模型可以不再完全依赖英伟达GPU而独立存在。开源体系的朋友无疑会更多而且更活跃。当DeepSeek R1横空出世后,AMD迅速响应,第一时间宣布将这一创新技术集成至其Instinct MI300X系列中,这无疑是对DeepSeek性能与潜力的高度认可。与此同时,华为云也不甘落后,迅速推出基于昇腾910B处理器的DeepSeek模型部署方案,展现了开源技术在云计算领域的强大影响力。这一系列动作不仅彰显了DeepSeek在业界的领先地位,更预示着它将直接挑战英伟达H系列计算集群生态,为AI计算领域带来新的竞争格局。而且使用DeepSeek采用的MIT许可证,这一开源协议赋予了企业免费商用的权利,这无疑为开源生态的发展壮大铺设了坚实的基石。可以预见,随着DeepSeek等开源技术的不断涌现和推广,开源生态将迎来更加繁荣的发展时期,为技术创新和产业升级注入新的活力。一切命运的馈赠都已在暗中标好价格,DeepSeek的颠覆性不在于技术的领先,而在于重构了AI产业的价值链,它用开源击穿垄断溢价,以效率碾压规模神话。在结束之前,我想再回应几个关于DeepSeek的重要问题。首先,我们不得不提及近期备受关注的抄袭问题。据报道,微软正针对去年11月发生的数据泄露事件,对DeepSeek展开深入调查。这一事件无疑引发了业界的广泛关注和讨论。在此,我想表达一下个人的看法。如果这个调查事件真实存在,那它也仅仅是封闭体系中开放与封闭两种策略之间不易平衡的矛盾体现,而不是真正指向Deepseek存在抄袭。毕竟,大模型服务不同于普通的小家电产品,可以简单地根据成品进行复制。它更像是一种复杂的药品,需要精确的配方和严谨的工艺才能生产出来。想象一下,如果没有配方,没有工艺,仅仅通过Open AI的成品去反推出一套成本更低的工艺和配方,还能达到类似的药效,这几乎是一个不可能完成的任务。因此,我们在面对这类问题时,只需要保持理性即可。另外,值得一提的是,Anthropic的首席执行官达里奥·阿莫迪也公开发文称DeepSeek并不是威胁,并呼吁美国加强芯片的出口管控。这一表态无疑为我们提供了一个新的视角去审视DeepSeek及其所处的市场环境。在我看来,文章将DeepSeek而不是开源列为假想敌,这其实在反映了该文目标读者的定位并非我们普通大众。因此,我们没有必要过于在意或者担忧,把开源产品当成普通厂商进行打压,只会让封闭体系自我受伤。美国AI界高手很多不会看不到这一点。
![](/static/gotop.png)