首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
李飞飞团队“50美元”复现DeepSeek R1?真相是…...
文摘
2025-02-06 20:23
上海
s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上,可谓依然是开源的胜利。
作者 | 黄心怡
今日一则关于人工智能领域的新闻引发广泛关注。
据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。
这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?
《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。
▌
通义模型的“基座”作用
根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。
青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,
如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始
”。
国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,
实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。
”
斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调
谢伟迪指出,
国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。
国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上
“
以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1
。” 谢伟迪说。
▌
低成本训练大模型有局限,但也是方向
尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。
首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。
其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。
此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。
尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。
武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。
科创板日报
服务新质生产力发展,是科创板、新兴产业及未来产业发展的重要新闻媒体,提供媒体、数据、投行、城市产业发展等服务体系,由上海报业集团主管主办,财联社出品。
最新文章
“科八条”后未盈利企业首家!迪哲医药超18亿定增注册获通过
DeepSeek,蹦出个729亿估值!
智驾芯片第一股,涨超37%!
华为,公布26项AI专利
AI眼镜,山雨欲来!
浙江机器人产业基金“上新”
安谋科技换帅!
马斯克,用AI技术调查联邦部门开支
DeepSeek爆火后,美国科技巨头面临灵魂拷问!
OpenAI前联合创始人,新动向!
小米市值,为什么上了万亿?
外交部回应 巴拿马不再续签“一带一路”谅解备忘录
华为AI模型量化专利公布,可减少占用内存
张国清,出席法国人工智能行动峰会
黑芝麻智能:芯片被比亚迪采用并已量产出货
大摩机器人百强图谱出炉!中国制造份额瞩目 这些公司在列
安谋科技新CEO公布!
中国第一代核潜艇工程总设计师黄旭华逝世
雷军:小米汽车提产!
刚刚,黑芝麻智能涨超15%!
特朗普,会见美国钢铁公司CEO
DeepSeek用户量,超越谷歌Gemini!
刘昆,任社保基金会理事长!
北京12寸晶圆厂,增资1999倍!
小米AI眼镜,提前发布
美国“星际之门”数据中心选址曝光
特朗普的俄乌和平计划或下周出炉
湖北500亿AIC基金群再落地
爱博医疗,Q4净利降超三成
李飞飞团队“50美元”复现DeepSeek R1?真相是…...
比亚迪,重磅发布!
DeepSeek“风暴”席卷A股:软件企业忙接入 国产算力迎机遇
DeepSeek引爆本地部署热潮 PC巨头火速响应
“瓜分”谷歌蛋糕?OpenAI宣布免费开放
阿里引进世界级AI科学家
特斯拉弗里蒙特工厂放出多个关键岗位
仕佳光子拟并购整合上游资源 保持MT插芯供货稳定
哪吒,带火了“谷子经济”
李飞飞团队训练出媲美DeepSeek R1的推理模型 云计算费用不到50美元
20亿,四川数据集团!
重庆,力争今年生产130万辆新能源汽车
浙江成立机器人投资基金
DeepSeek香港公司成立!
世界级AI科学家,加盟阿里!
美国再发生撞机事故!
云天励飞,上线DeepSeek R1系列模型
苹果M5芯片,量产!
今日复牌!菱电电控拟收购奥易克斯
6000万!申联生物拟投资世之源
Deepseek,星火已燎原!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉