首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
对话月之暗面创始人杨植麟:AI 未来最重要的能力是思考和交互
科技
2024-11-18 17:58
广东
月之暗面和杨植麟大概是近期最受关注的国产大模型公司和创始人,仲裁争议和出海产品收缩的消息让其站在风口浪尖。
更重要的原因,当然还是月之暗面的 Kimi 是国内 AI 应用的头部产品,目前 Kimi 的月活已经超过 3600万。
在 Kimi Chat 全面开放一周年的时候,Kimi 正式发布新一代数学推理模型 k0-math,对标 OpenAI o1 系列。
月之暗面创始人
杨植麟
认为,最适合让 AI 锻炼思考能力的场景就是数学。
他在向 APPSO 等媒体介绍 k0-math 时,引用了伽利略的一段话:
这个宇宙如果你把它看成一本很大的书,宇宙它其实是用数学来写的,数学是表达这个宇宙的语言。
基准测试显示,Kimi k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。
在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。
在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。
杨植麟向我们演示了 k0-math 解答数学题的一些过程,比如在面对一道很难的竞赛题,它可以通过大量的尝试。它可能尝试了八九种不同的做法,最后发现没有真正能达到最终的解答。
但是它会在多次尝试后突然发现我可以把前面的两三个不同的想法结合起来,就可以得到一个正确的答案。
为了让 AI 具备深度思考能力, k0-math 并没有前置设计很多模板。杨植麟希望 AI 在学习的过程中,自己衍生出来思考方式,而且它针对每道题是不一样的,它需要做大量的反思和检验的过程。
不过 k0-math 依然还存在一些局限,比如问它 1+1 的简单问题,会出现过度思考。k0-math 的回答大概是这样的:
它会说这个问题看似简单,但是你不能掉以轻心,所以它觉得这个可能有坑,所以开始分析,还要做了一下可视化。甚至它把类比成两个苹果。
这还不够,还要再检查一遍,如果你是苹果成立,如果变成小时,一个小时+一个小时变成两个小时,它确认了很多次,最后说 OK,可以确认 1+1=2。
具体效果如何还要用起来才知道,杨植麟透露,
k0-math 模型和更强大的 Kimi 探索版,未来几周将会分批陆续上线 Kimi 网页版和 Kimi 智能助手 APP
,帮助大家解决更有挑战的数学和搜索调研类任务。
我们也希望通过更强的推理能力,因为我觉得AI产品包括AI技术接下来的发展很重要的能力我觉得还是更加深度的推理,能够把现在只是短链路的简单的问答,变成更长链路的组合式的任务的操作。
爱范儿旗下 AI 新媒体 APPSO 受邀参加了这场 Kimi 的沟通会,并和
杨植麟对于公司和产品的一些问题进行了互动,以下是交流沟通的部分实录:
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
Q:如何看待 AI 创业公司被收购,人才回流大厂的?你们最近出现了人才流失吗?
杨植麟:
我们没有人才流失。
这个问题我们没有遇到,但可能有一些别的公司遇到。因为行业发展进入了一个新的阶段,它从一开始有很多公司在做。变成了现在少一点的公司在做,接下来大家做的东西会逐渐不一样,我觉得这是必然的规律。
其实我们主动的选择做了业务的减法,在几个大模型创业公司里,
我们始终保持人数最少,我们始终保持卡和人的比例是最高的,我觉得这个是非常关键的
。
我们不希望把团队扩那么大,一扩那么大对创新的影响是有一个致命性的伤害。如果你想把团队保持在一定的规模,那你其实最好的方式是业务上做一些减法。
我们一开始确实也尝试过比如说几个产品一块做,这个在一定的时期内有可能是有效的,到后来发现还是要聚焦,
你把一个产品做到极致是最重要的。
因为你砍业务本质上也是在控制人数,你不希望人数涨得特别猛。
比如如果现在三个业务一起做,我就活生生把自己变成大厂,我就没有任何的优势
。
Q:聚焦 Kimi (缩减产品线)这个念头是从什么时候开始出现的?是什么样的因素让你复盘要进行重新的布局?
杨植麟:
大概今年二、三月份吧。一个是基于美国市场的判断,二是基于我们自己的观察,主要是这两点。还有就是做(lisen)本身,确实得做减法,不是疯狂地做加法。
Q:你现在觉得最核心的任务是什么?
杨植麟:
最核心的任务就是提升留存,或者把留存作为一个重要的衡量指标。
因为我觉得基本上它跟你的技术的成熟度或者技术的水平也是一个正相关的过程。所以这个对我们来说当前是最重要的,我觉得还有很大的提升空间。
Q:留存到多少会满意?
杨植麟:
永无止境。
Q:o1 发了以后大家也会觉得深层推理,还有包括你今天说的数学模型,它离普通用户比较远,你怎么看这个功能和用户的关系?
杨植麟:其实也不远。数学来讲我觉得是两个方面的价值,第一个方面它今天在教育产品上其实有非常大的价值。在我们整体的流量里也起到很重要的作用。
第二个,我觉得它是技术上的迭代和验证。以及我们可以把这个技术去放在更多的场景里,比如我们刚刚说的探索版去做很多的搜索,我觉得它会有两层这样的含义。
Q:据说 Sora 马上就要发了,为什么你们一直不做多模态?
杨植麟:
我们也做,我们几个多模态的能力在内测。我觉得 AI 接下来最重要的是思考和交互这两个能力。
思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互我觉得是一个必要条件,比如说 vision 的能力,如果没有 vision 的能力没法做交互。所以我觉得它两个不太一样,你就看你要做这个任务你标注任务的难度有很大,你到底需要一个博士去标,还是每个人都可以标,哪个东西更难找到这样的人,那个东西就是 AI 的上限。
所以我觉得多模态它肯定是必要的,但是我觉得是思考决定它的上限。
Q:怎么看待 Kimi 跟豆包的竞争?
杨植麟:
我更希望关注在怎么能给用户真正价值上,我不希望我们过多去关注竞争本身,因为竞争本身并不产生价值。
如何提供更好的技术和产品,这是我们现在最核心的问题。我们会更聚焦在怎么提升模型的思考推理能力,通过这个东西给用户带来更大的价值,我们要去做正确的事情,而不是专门去做不一样的事情。
我认为无论是谁能实现 AGI 都是非常好的结果。
Q:AI 的超级应用何时出现?
杨植麟:
ChatGPT 月活已经超过5亿,它是不是超级应用,至少半个吧,有 5 亿人每个月在用,这个问题已经很大程度上被验证了。
Q:如何看待近期大模型预训练遭遇瓶颈的讨论,Scaling law 撞墙了吗
杨植麟:
我觉得预训练还有空间,半代到一代的模型。
这个空间会在明年释放出来,明年领先的模型会把预训练做到一个比较极致的阶段,今天比如说我们去看最好的模型它大概有这样的空间可以去压榨。
但是我们判断接下来最重点的东西会在强化学习上,就是范式上会产生一些变化,但是它还是 Scaling,并不是它不用 Scale,只是说你会通过不同的方式去 Scale,这是我们的判断。
你说Scaling law会不会是一个天花板或者是上限,这个相对来说我比较乐观一点。核心就在于原来你用静态数据集,静态数据集其实是比较简单粗暴的使用方式,现在用强化学习的方式很多情况下是有人在参与这个过程的,但是人没有办法给你标注那么多数据,不可能把每道题具体的思路都标出来,所以你其实用 AI 本身把人的东西加上一个杠杆。
比如说你标 100 条数据,你就能产生非常大的作用,因为剩下的它都是在自己思考,我觉得更多的会用这种方式去解决。我觉得这个大概率可以通过这种方式去做出来,所以我觉得它上限是很高的。
Q:我们距离 AGI 有多远?
杨植麟:
我觉得现在还是初级阶段,当然每年都有一些比较大的进步,如果我们今年用去年的产品,你会发现可能根本没法忍受。
但是可能还有很多东西,比如说我刚刚说的思考能力还不够强,交互不够丰富,所以它今天能做的交互还比较有限,这个交互可能是两个维度的,一个是跟用户的交互,一个是跟本身客观世界的交互我觉得都还有很大的提升空间。
凭一个计算器,卡西欧这只手表火了半个世纪
新款 Mac mini 拆解:机身小但散热强,硬盘可拆可更换
http://mp.weixin.qq.com/s?__biz=MjgzMTAwODI0MA==&mid=2652380660&idx=2&sn=e619f69369c1008278241d321878daa9
爱范儿
关注明日产品的数字潮牌
最新文章
马斯克也在用的「减肥神药」在中国上市了,真有那么神奇吗?
对话月之暗面创始人杨植麟:AI 未来最重要的能力是思考和交互
卡西欧发布首款智能戒指,就是一个能戴在手指的手表
华为 Mate70 定档海报提前曝光 / 苹果正考虑制造自有品牌电视 / vivo X200 系统更新,推出炫光减弱功能
凭一个计算器,卡西欧这只手表火了半个世纪
摩托罗拉销量大涨,还要在三年内做到世界前三?
新款 Mac mini 拆解:机身小但散热强,硬盘可拆可更换
OpenAI 将打造「人工智能经济区」,称面对与中国的竞争「别无选择」
华为 Mate70 或在本月26日发布/迈巴赫漏水车主:纠纷已解决/美团哈啰单车在郑州停运,哈啰已恢复
拥有 10 台电机的仰望 U7,开启了中国品牌的高端轿车之路
苹果罕见原型机曝光,全压感按键 iPhone 或会出现
小米汽车发布智能底盘预研技术/iPhone 15成Q3全球销量最高智能手机/吉利汽车宣布极氪将控股领克
小米汽车发布新技术,雷军要让 SU7 「原地起跳」
第十万台小米 SU 7 正式下线,雷军秀车间睡姿/曝苹果将推出 AI 智能家居中控屏/小米 AI 眼镜或明年发布
实测完 Mac mini 的 3D 渲染能力后,我们发现了一点惊喜
华为智驾上车比亚迪!方程豹豹 8 正式上市,37.9 万元起
为了吸引新用户,尼康造了一台针对富士的相机
春节和劳动节假期各增加一天/传苹果将进军智能家居网络摄像头市场/李子柒恢复更新,微念回应
iPhone 16,引起一场手机壳的割据混战
百度发布首款 AI 眼镜!比 Meta 爆款更卷,苹果也在押注的智能眼镜正在爆发
支付宝就故障致歉:不会影响用户资金安全/罗永浩发文怒喷餐厅卖预制菜/OPPO 首次领跑东南亚智能手机市场
奥迪发布了新品牌 AUDI 和新车 AUDI E,看完大家都沉默了
iPhone 部分旧款机型降至半价 /赛力斯再次发文,回应问界 M7 事故/开封夜骑爆火,官方喊话夜骑大学生
垄断小学生朋友圈的儿童手表,成也社交,败也社交?
OPPO Enco X3 耳机体验:虽迟但到的最佳「苹替」
M4 MacBook Pro 强了多少?我决定让它和王炸顶配 M1 Max 一决高下
OLED 太贵,MacBook Air 的「换屏计划」再搁置
字节最新技术一键「迁移」表情神态,人人都是演技派
网易披露反腐细节,涉案人员曝光/智界新 S7 将与华为 Mate70 系列一同发布/iPhone 18 Pro 有望搭载可变光圈
体验 iMac M4 后,我发现了苹果的小心思和乔布斯的影子
首款彩屏 Kindle 体验汇总:一块精彩的屏幕,但有一个明显的缺点
OLEDMacBookAir上市时间将推迟至2027年后/「纯血鸿蒙」微信已开启邀请内测/传哪吒汽车启动大比例裁员,官方否认
苹果最小电脑首测,我们发现了这些新玩法
独家首测:全新 Mac mini 的 Type-C 接口能供电了?实测后,我们发现了苹果的秘密
小鹏的增程汽车要来了!430km 纯电续航,1400km+ 综合续航
消息称小米 SU7 将冲刺月产量2.4万辆/亚马逊CEO :五天办公强制令并非变相裁员/小鹏将推增程汽车,综合续航超1400km
苹果的 MagSafe 接口,还有必要保留吗|硬哲学
你的下一台 Vision Pro,由 iPhone 驱动
曝苹果正为 iPad Air 开发 90Hz 屏幕/马斯克:特斯拉不造手机,除非苹果Google作恶/海马体回应照片被考研禁用
瑞士卷怎么分?我把这个席卷全网老公的问题抛给 12 个 AI,只有它最暖心
Meta AI 的这些新技术,让机器人拥有「触觉」
华为Mate 70官宣!余承东:史上最强/特斯拉Model Y成今年中国销冠车型/苹果Siri支持ChatGPT Plus
iPhone 的灵动岛终于要缩小了,靠的竟然是一块镜片
MacBook Pro 还有大更新?等等党又要赢了
iPhone 17 全系或支持 120Hz 刷新率/阿里为姜萍事件致歉,承认初赛成绩违规/Windows 10 将于明年终止支持
中国团队夺冠的赛博格「奥运会」,让我们看到人与机器的共生
25.99 万元!阿维塔 12 增程版发布,还给老用户带来了一大升级
iPhone 在全球都卖得更好了,除了中国市场
最大载重量 375kg,新能源车集体偷工减料?
比亚迪新能源汽车月交付量破 50 万/曝 iPhone 17 将采用自研 Wi-Fi 芯片/三星即将推出混合现实头显设备
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉