我们处于一个复杂且多维度的世界,科技进步加速、贫富差距分化和地缘政治紧张共存。但如道德经所说“万物负阴而抱阳,冲气以为和”,历史总是在动荡中前进,危险中孕育着机会,繁荣中隐藏着衰败。结合科技进步与人文历史,耐心小心的寻找“混乱生机”。
如果希望可以时常见面,欢迎标星🌟收藏哦~
01. 大模型商业模式的困境
从投资角度讨论“LLM大模型”非常困难,因为我们在讨论一个原理都尚未清晰的技术。比如“大模型能力如何涌现”、“Scaling Law能否持续”以及“可解释及可控性”等问题,答案都仍是开放的。对此李飞飞的AI仍处于“前牛顿”时期的类比,比较形象
我仍然觉得我们处于牛顿前的时期。如果用物理学来类比,牛顿之前已经有了伟大的物理学家,大量的现象学研究,关于星体运动等等。但是牛顿开始提出了非常简单的定律。我认为我们仍然处在AI作为基础科学逐渐成熟的令人兴奋的时刻。
Fei-Fei Li,Conversation with Andrew
而且从商业模式角度看大模型,会发现这是一个持续需要大规模研发资本投入,且难以形成差异化竞争优势的产业环节。关于这个困惑,我在之前的文章(从商业模式角度看大模型产业)就明确表示过担心。果然很快,在5月份就迎来了大模型免费潮。
02. 大模型产业链上硬件的创新机会
之后从商业模式角度出发,沿着大模型产业链展开来看,有芯片层、集群层、MaaS层、LLM Ops层和软件应用层及硬件应用层。(从商业模式角度看大模型产业(二)AI+硬件)
因为中国与美国特殊的竞争关系,芯片层和集群层有确定性机会,是有国防价值的。
软件应用层则比较模糊,因为模型能力仍在不断“解锁升级”,导致产品层的资本投入面临技术进步的破坏式创新威胁,在流沙上打地基。另一方面,LLM不像PC互联网和移动互联网,在用户量Q和用户时长T两个维度都没有增长,因此流量大盘(Q*T)没有增长,没有流量红利。
硬件应用层有独特的变化,大模型给硬件带来了新的人机交互方式。类比人类与人类的交互,会用到听觉和视觉,分解开有文字、声音、语言、面部表情、肢体动作、眼神等多种方式。人与人的交互,既有信息的交互,也有情感的交互。
当前人类与PC、手机的交互统一属于GUI这一套,依赖文字和位置信息编码来交互,就像残疾人与残疾人的交互,而且只有逻辑但缺乏情感。但基于大模型,是有可能将人类与计算机的交互带宽拓展到文字、声音、肢体动作等多个维度的。更高的人机交互带宽就具有了商业价值转化的潜力,如同GUI的商业价值及其支撑起的Macintosh、iPhone的创新。
不过从理论到实践纯在鸿沟,而且这理论还有可能是错的,所以要结合产业现实再修正理论推演。那么我们实际看到了这些
端侧芯片
Intel 23年底发布Meteor Lake架构的酷睿Ultra处理器,为LLM任务升级,包含CPU+GPU+NPU内核集成
AMD推出了具有NPU的Ryzen Mobile 7000/8000
Apple 发布 M4 芯片,全球最先进的端侧芯片,3nm制程,集成Apple 最先进的神经网络引擎,10核心CPU和10核心GPU
PC、手机和互联网巨头的动作
联想、戴尔、惠普、华硕等头部PC厂商都发布了各类“AI PC”
Oppo升级集团战略,向AI手机升级,安第斯大模型+潘塔纳尔Agent系统
VIVO发布蓝心大模型,春节推送AI功能
苹果传闻与Open AI和Google谈接入GPT-4和Gemini来升级Siri
Meta发布Ray Ban Glass Gen 2,传闻已超百万出货量,尝试智能眼镜作为AI入口(AVP和Meta智能眼镜进展不错,大模型激发消费电子创新周期)
2023年底发售,累计销量传闻超百万,且持续上升(线下渠道每日1.5万台销量),定价299美元。有单摄像头+双定向音频模组,蓝牙连接手机+Wifi直连双模式,实现多模态AI调用
字节收购Oladance开放式耳机(OWS),传闻会推出智能眼镜、智能耳机等一系列产品
三星推出了AI手机和家庭AI机器人Ballie
这些林林总总的动作表明巨头已经动起来了,端侧+AI是个明牌,其潜在价值不难理解。但当前也仅仅是尝试阶段,或者叫算力准备阶段。重点是看苹果如何升级Siri,如何用好人机交互的创新,看能否给大家打样。目前OPPO提出的潘塔纳尔Agent系统有点意思
04. AI+硬件的创业公司动作方向
了解完巨头动作后,我们再看创业公司的动作,就相对清晰了。
下图按照场景(个人与家庭),价值(功能性与情感价值)两个坐标把生活中常见的消费电子产品划分场景。(这个维度是相对抽象简化的维度,如果能三维表示就更好了)比如电饭锅、扫地机器人典型的是功能属性+家庭场景,游戏机是典型的情绪属性+个人场景。这种垂直品类比较好划分,但涉及PC和手机这种平台级通用设备时稍有些模糊,不过PC和手机都毋庸置疑属于个人设备偏向于功能属性。
“大模型+硬件”大体上有两个思路。一个是向左上角探索可穿戴设备+AI,基于大模型带来的人机交互创新,以语音(麦克风)+视觉(摄像头)两个传感器来Offload原本在手机上的交互功能,以实现更自然的人与AI的交互。这样讲可能有点抽象,我们看下图比较容易理解:
在GPT4o发布会上,Open AI员工展示可用GPT4o拍摄/摄像读取书写的数学题目,然后AI会理解数学题并以非常自然的语音来讲解数学题目如何解题。但受限于手机的人机交互方式,一个很高级和科幻感的功能展示,却需要手举着手机并眼睛瞟着手机来看摄像头是否对准了文字。这个交互过程就非常不自然,因此很容易想象到,如果能用Meta 的Ray Ban Glass 或者其他可穿戴设备来解放双手,并自然的让AI能看到我们人类看到的画面,这个交互就会自然很多。
现在探索的形态有智能眼镜、智能耳机和配饰三大类,智能眼镜又分为AR显示和非AR显示,带摄像头和不带摄像头两大类。但都需要连接手机,以蓝牙传输音频和图片,手机接收输入来理解或调云端模型推理,收到结果后再蓝牙回传可穿戴设备。因此这个场景走的是OffLoad手机上的传感器,与人的感官更近,走的是AI入口故事,与手机厂商之间的生产关系,天然需要有个合作方案,很难是平行线。
历史上在眼镜上做文章也起起伏伏多次,Google Glass 2014年一波,Magic Leap、Quest收购 2016/2017年一波,2021年元宇宙一波,现在2024年Meta Ray Ban 2代又掀起来一波。不过这一波因为有多模态大模型带来的人机交互创新,有可能起来,但核心仍在于Agent Economy能否起来,这个后面再聊一聊。
除了眼镜外,还有基于翻译能力做创新的AI耳机如科大讯飞翻译耳机,据说年销售额也已小几亿元。从Rewind转型的Limitless靠挂坠、夹片来记录聊天并翻译和整理,这个产品销量也达到了万级。
另外一派的尝试是向坐标轴的情绪价值方向走,尤其是往家庭场景走,结合玩具、桌宠、宠物机器人的形态来做情感陪伴。历史上这个方向也不算前无故人,早在1999年索尼就推出过Aibo机器狗,开创了娱乐性机器人的先河。Aibo历史总计售出15万只机器狗,在2006年停产。
之后进入2012年, MIT 博士 Cynthia Breazeal提出了Social Robot这个概念,然后成立了明星公司Jibo,算是新一代社交机器人/情感陪伴机器人的鼻祖。这是一款类似智能音箱的产品,但有摄像头+扬声器与人交互,基于CV做了人脸识别、情感判别和语音问答等AI能力。
随后2013一群卡内基梅隆大学的机器人工程师和博士组建了另一家明星公司Anki,2013年推出了智能玩具赛车Anki Drive、2016年推出了社交机器人Cozmo、2018年推出了升级版机器人Vector, 采用了SLAM技术和CNN算法,使得Vector在识别能力、学习能力以及行为能力上都远超过Jibo和Cozmo。
Anki公司生命周期内总计售出650万台设备,年销售额近1亿美元,共获得2亿美元风险投资。但遗憾的是Anki在2019年宣布倒闭,前辈Jibo也已于2018年底宣布倒闭。
背后原因也很简单,就是AI的能力还不够,还不够智能、不够互动,不能提供足够的情绪价值来破圈,无法摆脱买了之后吃灰的问题。高昂的软硬件一体研发费用(大量算法研发人员)压垮了创业公司。
05.两个方向上面临的挑战
现在是AI+硬件创业的顺风期,市场规模想象空间自不必多说,但其真实落地到商业价值还要跨过门槛,不过门槛高低不同罢了。
做AI+可穿戴设备,就无可避免要回答与手机厂商之间的关系。之前我提了一个说法,核心是Agent Economy与App Economy的问题。这里想表达的意思是说,以AI智能眼镜为例,想让其有用,就不可避免的要通过AI来调用丰富的软件能力,这里就要解开三个问题,一是Agent能力的问题,二是Agent如何去调用现成APP能力的问题,三是如何让App Economy能跟Agent Economy融合好。
为何解这个题目有组于理顺与手机厂商的关系呢?因为手机品牌实际上硬件很难挣钱(此处不提苹果),主要靠预装软件、卖广告和金融服务赚钱,因此天然与App Economy的关系是紧密绑定的,很难搞一个兼容Agent Economy到App Economy的生态。
这个能力是手机厂商不具备,或者很难解决的。单纯在硬件层面的创新,除非定位细分品类,或者做成一个时尚消费品牌,不然很难与手机厂商竞争。这一点从智能手表/手环可见,主要是手机厂商不会放弃1+8+N的战略,不敢放弃。
做家庭情感陪伴场景,就要解决如何把客单价做高、如何把品牌做出来、生活方式做出来,把整个故事讲好的问题,这是个构建品牌的活,硬件+情感互动模型+品牌营销三位一体。
这方面有家日本公司Lovot干的不错,人家slogan是 “A little love can change the world”,这逼格一下就上去了。这个陪伴机器人是毛绒皮肤,只发出yiyiyayayinyin的音节,然后每一只都有不同的“性格”,类似宠物一样。单价奇高无比,日本卖3万人民币,国内卖7万人民币,据说日本卖了1万多台。。不是说这家就一定能跑下去,但这个团队展现了硬件+情感模型+品牌营销一体打法下展现出来的表征。