首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
梁文锋“反对”张一鸣
文摘
2025-01-30 16:30
广东
作者 | 王靖
编辑 | 彦飞
来源 | 字母榜
眼下最受关注的AI新星、DeepSeek创始人梁文锋,正在与张一鸣背道而驰的道路上一骑绝尘。
1月28日,DeepSeek发布新一代多模态大模型Janus-Pro,分为7B(70亿)和1.5B(15亿)两个参数量版本,且均为开源。
新模型一经发布,就登上了知名AI开源社区Hugging Face的模型热门榜。目前,在Hugging Face收录的40多万个模型中,热门榜前五中,DeepSeek独占其四。
据DeepSeek介绍,相比去年11月发布的JanusFlow,Janus-Pro优化了训练策略、扩展了训练数据,模型也更大,在多模态理解和文本到图像的指令跟踪功能方面,均取得重大进步,同时还增强了文本到图像生成的稳定性。
与先前引发全球AI圈轰动的R1大模型类似,Janus-Pro同样是“小力出奇迹”的成果。
根据DeepSeek发布的测试结果,这款文生图大模型在多项基准测试中表现出色,甚至强于OpenAI旗下的DALL-E 3,以及Stable Diffusion。
亦有用户指出,Janus-Pro谈不上全面超越DALL-E 3,后者在许多测试中依然更强,输出图像分辨率也明显优于Janus-Pro的384x384像素。尽管如此,Janus-Pro以70亿的最大参数量,与120亿参数的DALL-E 3打得有来有回,依然展现了不俗潜力。
“小力出奇迹”的策略,DeepSeek已经屡试不爽。
本月早些时候,DeepSeek发布R1大模型。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能,号称可以比肩OpenAI当前最强的o1模型正式版。o1发布于2024年9月,此前从未被国内AI公司迫近,直到R1横空出世。
更重要的是,DeepSeek只花费了相当于OpenAI零头的资金、资源,就拿出了堪与o1比肩的产品。
DeepSeek并未公布R1的训练成本。可供参考的是,去年12月底,DeepSeek发布V3模型,与OpenAI的GPT-4o性能接近,使用2048块英伟达H800芯片,耗费约560万美元。相比之下,GPT-4o使用上万块英伟达H100芯片(性能优于H800),训练成本约1亿美元。
V3、R1不到一个月接连降生,除了震动业界,也让AI时代的卖卡王者闪了腰。
1月27日美股交易中,英伟达股价暴跌17%。一天之内,英伟达市值蒸发5940亿美元(约合4.3万亿人民币),相当于跌掉了一个腾讯加一个美团。
但长期来看,芯片依然是AI大模型的发展基石,英伟达作为这一领域技术壁垒最坚固的公司,“卖铲者”的长期价值依然坚挺。
面对DeepSeek 冲击波和其“小力出奇迹”的方法论,笃信并践行“大力出奇迹”的字节跳动难免有点尴尬。
自从2023年大举进军AI大模型以来,字节一边挥舞着支票簿,全球大手笔求购芯片;一边快速扩充AI业务矩阵,先后发布十几款大模型,外加十几个AI应用。无论是资金、资源、人才投入,还是AI产品矩阵和业务条线的数量,字节均遥遥领先其他国内大厂。
时至今日,字节在AI大模型领域的“大力出奇迹”收到了一些效果。根据量子位智库的数据,截至2024年11月底,字节旗下豆包APP的累计用户超1.6亿,日活跃用户接近900万,全球范围内仅次于ChatGPT。
但“小力出奇迹”的DeepSeek,让字节看似无可置疑的“大力”打法遭遇“破壁人”。
字节此前依靠“大力出奇迹”,在短视频、电商、本地生活、游戏、AI等领域开疆拓土。但DeepSeek证明,在技术创新的加持下,“小力”同样可以创造“奇迹”,这不仅揭示了一条新的技术路线,也蕴含着新的商业哲学。
在这一层意义上,梁文锋隔空“反对”张一鸣。DeepSeek不仅在AI技术和产品上打破了旧思维,也在不经意间点破了“大力出奇迹”并非放诸四海皆准的商业真理。
在Janus-Pro发布前,“小力出奇迹”的R1追平了o1,已经让一众科技大佬惊叹不已。同样“小力”的Janus-Pro,有多厉害?
先看成本。
根据DeepSeek披露的信息,新模型使用一种轻量级的分布式训练框架,1.5B参数模型大约需要使用128张英伟达A100芯片训练7天,体量更大的7B参数模型则需要256张A100芯片,以及14天训练时间。
以此推算,依靠大幅压缩芯片使用量和训练时间,Janus-Pro的模型训练成本(不含购买芯片等费用)可低至数万美元,相当于一辆新能源车的价格。
在大模型训练成本动辄以亿为单位的大环境中,区区数万美元,太省钱了。
再看性能。
据介绍,Janus-Pro是一种自回归框架,它将多模态理解和生成统一起来,将视觉编码解耦,以实现多模态理解和生成。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。
倘若看不懂上面这些拗口的技术名词,不妨参考DeepSeek提供的几个实例。
文生图方面,输入“一条金色的寻回犬安静地躺在木质门廊,周围洒满秋天落叶”,或是“一个有雀斑的年轻女人戴着草帽,站在金色麦田中”,Janus-Pro生成的图片都像模像样。
至于图生文,扔给Janus-Pro一张黄昏湖景照片,提问“猜猜这是哪里”,Janus-Pro能够判断出这是杭州西湖,甚至点出了图中著名景点三潭印月岛。
最后看落地。
Janus-Pro继承了DeepSeek的优良传统:开源。它使用MIT协议(限制最少的开源协议之一),个人、中小企业可以省不少钱。另有AI开发者认为,由于模型体量小,Janus-Pro可以在PC端安装、本地运行,有望进一步降低使用成本。
DeepSeek再度证明,“小力”做出来的东西,并不意味着技术落后、产品拉胯,更不一定抠抠搜搜,三步一个付费提示,五步一个月卡优惠。
而在时间维度上,“小力”甚至并不一定会比“大力”跑得更慢。
根据公开信息,DeepSeek于2024年前后推出Janus,同年11月迭代至JanusFlow。两个月后,Janus-Pro上线,在部分指标上已经具备与DALL-E 3扳手腕的能力。
Janus-Pro横空出世,揭示了大模型的各项成本——尤其是芯片成本——是可以被大幅压缩的。或者说,OpenAI、谷歌、字节们打惯了富裕仗,过于“奢侈”和依赖“大力出奇迹”了。
有趣的是,在创下美国上市公司有史以来最大的市值蒸发幅度后,英伟达回应称,“DeepSeek是一项卓越的人工智能进展”,同时不忘给自己做广告,称“推理过程需要大量英伟达GPU和高性能网络”。
被别人隔空暴打,还得强颜欢笑,对老黄来说也是头一遭。
Janus-Pro再度展示DeepSeek“小力出奇迹”的威力。相比之下,国外秉持“大力出奇迹”的OpenAI,近期却多少有点儿翻车。
比如文生视频大模型,去年2月OpenAI掏出Sora震惊全场,随后却是长达10个月的“闭门造车”。中美两国的AI公司纷纷趁机追赶。
到了12月,Sora总算正式上菜,价格昂贵,效果却一言难尽,被不少用户吐槽甚至不如开源模型。谷歌抓住机会,掏出自家的Veo 2与Sora对比,贴脸嘲讽。
尽管丢掉了先发优势,OpenAI仍然没有放弃堆芯片、堆算力的“大力”路线。
前几天,OpenAI拉着软银、甲骨文等公司,宣布要成立AI公司“星际之门”,未来四年投资5000亿美元,用于AI基础设施。OpenAI“一生黑”马斯克第一时间泼冷水,声称“他们实际上没有钱”,并言之凿凿称软银能够确保的资金远低于100亿美元。
与OpenAI相比,字节对于“大力出奇迹”的玩法更加精通,效果也好得多。
比如字节AI的核心产品——豆包大模型,在知识、代码、推理等多项公开测评基准上,最新的1.5 Pro版本得分优于GPT-4o,以及DeepSeek-V3。换言之,豆包1.5 Pro的性能同样位列全球大模型第一阵营。
不过,字节为AI大模型投入的成本同样惊人。
就在DeepSeek成为焦点的这几天,字节被曝出今年将投入超120亿美元用于AI基础设施。其中,55亿美元将被用于购买芯片,68亿美元将被用于海外投资。
字节随后回应称,相关消息并不准确。字节非常重视AI领域的发展与投入,但相关预算与规划传闻并不正确。
AI大模型技术仍处于快速迭代阶段,公司投入巨资研发、训练的新模型,可能几个月甚至几个星期后就不再领先。这意味着,如果字节沿着“大力出奇迹”的思路做AI,每年都需要砸下巨资。
这或许也从侧面解释了,字节发展AI大模型,为何从一开始就格外注重商业化。
背靠抖音、今日头条、飞书等业务板块,字节AI大模型不愁找客户,豆包使用量节节攀升。字节火山引擎总裁谭待曾透露,去年5月豆包大模型日均tokens为1200亿,12月15日突破4万亿,7个月里增长超过33倍。
另据界面援引知情人士言论称,豆包大模型经过多次降价后,毛利润率依然为正;豆包1.5 Pro的毛利润率高达50%。
但上述知情人士透露,由于研发投入巨大,字节AI大模型业务仍处于亏损。只有持续扩大应用侧的模型调用规模,才能长期摊销掉研发成本。也就是说,字节仍然需要继续推动“降价-拉来更多客户-获得更高收入-提高利润空间-降价”的飞轮。
相比之下,DeepSeek背靠的幻方量化是国内顶级私募之一,并不缺少资金。但DeepSeek不仅不烧钱,还想办法改进技术来省钱,最终实现“小力出奇迹”。
DeepSeek去年初露峥嵘后,OpenAI的奥特曼在社交媒体上发帖,暗中吐槽V3大模型缺少真正的创新,只是在复制有效的东西。
从技术角度来看,奥特曼这番话未必毫无道理;但从技术理念和企业哲学来看,DeepSeek无疑给AI大模型领域注入了新鲜空气。它不仅“小力出奇迹”,更“节省出奇迹”“开源出奇迹”。这套不讲“传统武德”的组合拳,已经让买芯片、堆算力的外国同行闪了腰,也让字节的“大力出奇迹”路线值得再度审视。
字节是“大力出奇迹”打法的受益者。如今,DeepSeek却成了它的“破壁人”。
“大力出奇迹”打法的基本逻辑是,找到最热的赛道,快速推出产品,然后注入远超对手的资金和流量,将其“催熟”,从而占据优势市场地位、获得超额回报。字节的主要业务——今日头条、抖音、TikTok等业务,都在“大力”的推动下,成为各自领域的领头羊。
2024年,字节的“大力出奇迹”依然在延续。
图源:AI制作
比如红果短剧,据QuestMobile测算,2024年3月,红果短剧的MAU约为5400万;当年11月,已经突破1.4亿,净增约9000万。一年增长近亿MAU,红果短剧显然离不开抖音乃至整个字节的托举。
在海外,号称“海外版小红书”的Lemon8,也在TikTok面临危局时大规模投流,下载量暴增,一度被视为字节的海外B计划。
而在AI领域,浙商证券在去年底的一份报告中估算,2024年字节在AI上的资本开支高达800亿元,接近百度、阿里和腾讯的总和(约 1000 亿元)。预计2025年,这一数字将翻倍至1600亿元,其中AI算力采购900亿元,数据中心基建和网络设备则占700亿元。
字节“大力出奇迹”吃过不少败仗,比如游戏、教育、PICO等。但作为字节的底层方法论之一,“大力出奇迹”并没有被舍弃。同时,红果短剧等新产品的成功,也证明这套方法论仍然有效。
但“大力出奇迹”要想充分发挥威力,需要外部环境存在这样的特征:技术创新的重要性,远不如资金资源。
在技术发展平稳期,企业往往会发现自己身处这样的环境。近些年,移动互联网技术基本没有大突破,哪家公司钱更多、资源更丰富,就更有能力抢占更多市场和利润。“大力出奇迹”不仅有效,几乎成为不得不选的答案。
但一旦技术有了飞跃式突破,资金资源就会退居次席。这样的故事,已经在新能源车、商业航天领域发生过,如今正在AI大模型赛道重演。
在这一层意义上来说,“小力出奇迹”的DeepSeek,打破了字节乃至中国互联网的执念和迷思。R1等新模型的强力表现,让技术再度压倒流量、资金、人力等,成为企业和行业发展的主要驱动力。
家底丰厚的DeepSeek并非被迫省钱,而是有意控制投入,将“小力出奇迹”视为一种更高层次的商业哲学,而非应对资金紧张的举措。这也意味着,大模型并非只是“大厂游戏”。中小厂完全可以用更少的芯片和费用,做出更好的产品,进而得到市场和投资者的认可。
相对应的是,AI大模型公司的发展潜力和投资价值,也不应与所持有的芯片数量强绑定。“小力出奇迹”的价值不仅在于技术,也让大厂主导的“大力”商业逻辑和价值体系发生动摇。
在科幻小说《三体》中,人类为了应对外星威胁,炮制各类耗费巨大的战略计划,却被小小的“破壁人”一语点破。而在商业世界中,忙于“大力出奇迹”的字节、OpenAI们,正在与DeepSeek扮演的“破壁人”正面相遇。
参考资料:
字母榜,《DeepSeek推翻两座大山》
腾讯科技,《省钱也是技术活:解密DeepSeek的极致压榨术》
人人都是产品经理,《霸榜全球 AI 产品 Top100、重启 App 工厂,熟悉的字节跳动又回来了》
鞭牛士,《字节跳动今年计划斥资120亿美元用于AI芯片》
钛媒体,《DeepSeek除夕炸场!开源多模态模型发布,仅128颗A100训练,英伟达市值减4.3万亿》
*本
文转自
字母榜
,
内容仅代表作者观点,转载请联系原作者授权。
老板进群
进派代增长社会员群 聊增长、保利润
150+亿级、400+千万级
老板已加入
听大咖群内分享 线下深度交流↓
热文推荐
派代
助力卖家增长。商务合作加v:18027262980
最新文章
我是破产的电商小老板,如何翻盘?DeepSeek 给出12条建议
服务崩溃,DeepSeek该给金主一个贴金的机会
年销70亿单!类目TOP1卖家,要上市了
永辉副总裁王守诚:调改半年后的深切感受
抖音的新对手来了
我租车开网约车,三天后倒欠公司7400元
没流量,商家和平台都急了
春节“出海”东南亚:中国年货成必备年味
淘宝 小红书这事搞大了
梁文锋“反对”张一鸣
又一女装TOP店,爆了!
“披萨一哥”终于在中国赚钱了
毛利率80%以上,新年爆火的第一个生意
大佬返乡,都喜欢做什么?
薇娅现身了
销售额翻3倍!这些义乌商家爆单了
小红书带货一姐,稳了
Temu对这些商家出手了
第一批回家的年轻人,正忙着团购过年
快递集体涨价,商家太难了
这些年货直播间,爆了
倒闭第一步,餐饮改自助
电商新蓝海出现:10个赚钱机会|派代脑暴会
跌破3000块,苹果终于向中国低头了!
TikTok,暂时续命,漫长煎熬
这个电商岗位要失业了!AI将替代90%人工
2025年淘宝集中出招,释放不寻常的信号
厂二代扎进小红书掘金
美妆类目第一店铺,倒了
特朗普发话:不卖TikTok,就给中国加关税
盒马换帅300天:狂飙拓店、加速下沉、开放加盟
这类目危险了!又一淘宝商家被罚近300万
小红书电商要发力了
共享充电宝的故事,讲到头了?
淘宝上线“送礼”,2025首个电商新机会来了?
TikTok解封了
古茗的招股书里,写满了茶饮这一年的辛酸
辛巴要放弃直播了
超1.2万家店铺,倒在2024年
韩国游客涌入上海,谁接住了这一波“泼天富贵”?
抖音再对淘宝出手,一场不能输的战争
年货节变了,平台卷向别处
月活超8亿的高德,难以走通本地生活路?
京东大改版
潮汕小伙做年货生意,年销近1亿,今年增长50%
大洗牌后,茅台镇突然入冬
从 “rise100年度榜单”看小红书电商:店播成主流
非洲的流量像自来水,但电商创业70%都不赚钱
小红书爆了,仍有三个隐忧
B站拿下春晚转播权,从小众到大众
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉