7月5日,作为2024世界人工智能大会的重要主题论坛,中国信通院承办的“迈向AGI:大模型焕新与产业赋能”论坛在上海徐汇西岸拉开帷幕。董事长傅盛作为受邀嘉宾出席并发表主题演讲,分享了《端模合一:大模型赋能机器人的创新实践》,他强调,猎户星空是唯一自研大模型的机器人公司,同时他也预言,未来几乎所有的大模型公司都是有端的公司,这个端要么是软的,要么是硬的,相信未来一定是属于端和大模型在一起的时代。
以下是董事长傅盛的演讲实录:
首先,感谢大家来聆听我的演讲,我今天主要想讲讲大模型和机器人之间的关系。首先介绍一下我们公司的历史,我们是有一定年头的公司,2010年成立,经历了三次S曲线。
第一次是以PC免费和移动互联网为核心,当时可牛影像和金山毒霸合并成立了猎豹移动。在2012年当时做了比较Think Different的举动,把全公司的主要力量投向海外市场,用了两年时间做到全球大概有6亿活跃用户,其中4亿来自于海外,也算是当时中国出海最早的一批互联网企业。
然后大家现在熟知的TikTok,也是当时我们投资的Musical.ly后来卖给的字节。说来也是很奇迹的事情,当时Musical.ly的创始团队是在上海,因为没有人相信上海团队能做全球化的APP,反而只有我们敢投资。
2016年,开始做人工智能,当时看到了人工智能的到来,当然现在回头看是AI 1.0时代,到现在ChatGPT的到来是AI 2.0时代。
我们在2016年喊出了All in AI的口号,并且开始做服务机器人。我们当时一直认为,机器人在英语翻译是Robot,它没有人的概念,更多是劳动力的概念。在大模型出现之前,机器人更多是发达的四肢,没有太多的对世界的理解力和预判力,所以在这之前的机器人本质上是自动化的机器,靠人把规则抽象出来给机器,所以适应性很差、精密度很高,只有当大模型出现的时候,它才能自主对世界有感知、决策。这次WAIC中大家有一个感受,机器人展厅特别大,机器人特别多,这肯定有一定的辅助作用。
我们自己在新时代也定义自己,成为AGI时代全球领先的新质生产力工具提供商,并且我们认为未来是人机协作的世界。我是科技乐观主义者,不管“朋友圈”再怎么说你以后要失业了,或者说未来人要被机器取代了,但我一直认为人是很难被取代,更多的是人机共存、人机协作。
为什么这波AI这么强?我很喜欢的科普作家卓克,他有一门课,特别推荐大家听!也可以给孩子听,叫《科学思维课程》,他认为ChatGPT的出现实际上是人类科技史的第三个科技奇迹年,正是因为ChatGPT的出现,才使得整个的研究范式、工业范式都会发生转化。在这之前,可能只有牛顿的万有引力定律和爱因斯坦的相对论才与之媲美。
虽然大家今天都觉得大模型热,但是它的原理倒是比较简单。大家应该都知道,它是通过预测下一个词。昨天李彦宏做了一个分界,我觉得分得挺好的。在AI1.0的时候人工智能叫辨别式的,判断猫是猫、狗是狗。今天的人工智能是生成或预测式,它预测下一个词。但是每一个下一个词的预测组成的句子,就非常符合你要的答案。每一次的预测使得大模型拥有了对世界的预测力,其实今天机器人也是这样的,本质上能预测这个“手”过去能不能拿到苹果,所以预测产生了智能。
大家一定要知道Intelligence这个词并不是人类独有的,就是所有的生物都有Intelligence,智能就是对世界的预测和反应。但是由于大模型能够预测下一个词,它就有了真正的人类独有的智能,因为语言是人类独有的能力,但识别不是。
今天这个预测,为什么能产生智能的中间过程?实际上是灰盒状态,使得大模型这个产业不断在发展,路线不断的出现分支。今天谁说哪一条路线一定能走到头,就是能够创造最终的通用人工智能,其实我觉得可能都是猜的。
今天没有一个数学公式能够表达出来,到底是今天Scaling Law能够走到头,还是通过不断的模型优化、算法的优化,通过端侧的能力就能实现通用人工智能。
这是我们分析的科技树,OpenAI为什么能成功?本质上OpenAI的成功并不是做了别人不能触及的技术而起来的,而是因为大家都在走辨别式人工智能的时候,他认为只要出下一个词就能产生智能。
第一棵树,其实当年在硅谷时OpenAI都是不被看好的,能看好的,大家可能都干了。因为整个人工智能大树的主干是一直没有变过的,就是神经网络,最后到Transformer为主,只是大家不太相信只通过下一个词的预测就能出现智能,但是只有OpenAI做了。当ChatGPT出现的时候,大家都发现这条路是对的。但由于底下的基座是一样的,所以解释了今天为什么会有百模大战。很多人问我做大模型到底难不难?我说八个字“难者不会,会者不难”,你觉得它难,是因为你以前没有做过人工智能,真正做过人工智能,你会发现原来它并不是一个神秘到不可预测的事情。
到今天又出现了很多开源模型,人工智能开源是一个非常巨大的力量,而且最关键的是今天开源并不是草台班子在做,而是各大公司都在下场,所以未来一定会形成两个阵营的二元对立,就是开源阵营和闭源阵营不断的去对撞。
今天闭源阵营为了证明他们的能力强,就使劲卷算力、卷参数。但是像机器人这样的产业,一定是一个能跑在端上的模型,所以一定属于开源行业。像今天微软、谷歌都发了几十亿参数的开源模型,所以开源的更小的资源是使得机器人走进千家万户核心的基座。
我们今天如果拿开源、闭源、云和端来看,你会发现一个有意思的现象,今天全世界市值最大的三家公司之二,苹果和微软都是走在端上的模型,而且都加入了开源的阵营。其实谷歌现在也在发开源的端侧模型,发现云侧模型的卷已经卷不动了。最近OpenAI说GPT5要到明年年底才能发布,现在是三个月大模型就过期的时代,就跟海鲜一样,但是GPT5到了明年年底,也就是说到明年年底之前,整个业界不会再出很强大的云端模型了。但是端上的模型,却是方兴未艾,几亿、几十亿的。
ChatGPT的出现会改变交互革命、生产力革命,由于时间关系,就不多讲了,大家可以看我的视频号【傅盛讲AI】,这里面都讲了。
围绕这两个领域会有两类企业崛起,一类是以交互为核心的,未来所有的终端、硬件、APP都会被重塑一遍,不再通过图形交互为主。像苹果上个月发布的iOS18,本质上改变的就是Siri。Siri的改变使得第二天苹果股价涨了7%,第三天涨了4%,涨出了一个腾讯或阿里,这就是交互革命的可怕之处。
生产力革命,今天很多企业开始用AI去提效。OpenAI做了一件最伟大的事情,就是完成了整个社会的恐慌式教育。所有的企业都觉得,如果以后不用AI就会落伍。
今天讲讲我们的实践,讲了这么多ChatGPT的革命之处。你发现很热,但是真的大家应用起来了吗?爆发了吗?刚才我在外面接受了采访,有记者问我,看现在机器人正在大爆发,我说你得定义一下什么是爆发?展厅里是爆发了,但是在日常生活当中,或者在哪个地方用起来了吗?如果展厅爆发算爆发是爆发,但是真正对产业产生爆发,我觉得还远没有到那个时刻。其实今天的AI也是这样,融资额极高。去年有一个统计,整个AI行业买芯片的费用好像是超过500亿美金。但是整个AI行业的收入,大概就几亿美金。这就是这个行业的现状。
为什么呢?我们总结了一下,就比如说企业端要用好AI有三大痛点是阻碍式的。
第一,公有模型读的数据是互联网上的出版物,互联网出版物是人类知识的冰山一角。但是我们企业的很多开会、头脑风暴、决策、各种调研,这些东西不在互联网上。所以你发现企业用大模型,就是听起来都很正确,然而并没有什么用。我们在公司推广大模型使用的时候,大家也说反正写的看上去有道理,但是离我的工作水平还有差距。所以它的原生的数据,导致它没有办法深入诊断企业的问题。
第二,安全性问题。今天还看了一个小道消息,说美国军方的F15的设计图都被曝光了,不知道是真是假,但至少三星的数据被曝光过,YouTube的数据被OpenAI抓取过。其实以后如果数据是核心竞争力的话,企业的私有数据是不能给公有大模型的,因为给了就可能使得数据一下子变成别人的竞争力。
第三,更重要的,今天我们给很多企业做落地,无论是机器人端,还是应用端,就是你用全世界最好的模型,你用在一个具体问题上,普遍就是70%的准确性,这算高的。我们接触一个金融企业,花了上千万部署一个大模型私有化,后来发现准确率只能20%到30%。昨天MiniMax 的创始人也说了,他说今天生成式模型正确的水平就是70%多,很多是幻觉,它不懂,它有个最大的问题是它不知道自己不知道。如果你知道它70%是对的,30%是错的,还挺好的。但问题是它对所有的问题都告诉你它知道,你还得找出30%错误,这就成为了悖论。因为你要依赖大模型,你要得出答案,但是没有更好的武器去找出30%的错误,这就很痛苦。
我们接触的企业用户基本上的准确率,在很多岗位场景比如客服、内部知识的梳理,比如说一些数据的统计,没有95%以上的准确率是根本没法上岗的。我们不苛求100%,因为人也会做,但是准确率太低了,根本没法用。
我们后来就根据与用户共创总结了三点,第一,用私有大模型,参数量不用那么大。其实今天很多模型在不同类型的任务上有不同的表现,比如给一个客户大概用了5到6个模型,有很多70亿参数的模型帮助做意图分类,实现了成本低,但是效果好。再结合私有数据,再加深度定制应用,就能够实现远远大于GPT的效果。
我们在机器人上的应用,我们提出了大模型机器人,我们今天是整个做机器人公司唯一训练过大语言模型、唯一拿了双备案的公司。
同时也是过去7年时间里在机器人领域积累了关于硬件、软件一体化的公司。我们把整个机器人的全链条都做了,从大语言模型到机械臂、导航等等。
猎户星空今年1月21日发布了Orion-14B,是140亿参数的大模型。我跟团队当时反复讨论选一个什么样的参数去训练,既要考虑成本,又要考虑应用。我当时给他们一个指标,有一天我要把这个模型用在自己的机器人上。我们机器人不需要联网,本地就有一个模型跑着,让它能自主决策、自主交互,这就是当时选这个参数量的核心因素,并且也拿到了备案。
今天机器人,我认为未来总有一天机器人会走进你的家庭,给你叠衣服、做菜。但是即便是大模型出现了,没有五年、十年(我认为可能是十年),是不太可能的。今天我想说,我们想做的是先用大脑去构建机器人的决策和交互能力,其实很多技术是先从垂直场景开始做,并不是做出了秒杀一切的场景然后到处卖。其实你看我们回顾一下,汽车最早就是在周边,今天的自动驾驶也是这样,然后慢慢开始延展。今天我们讲iPhone出来的时候,最早买的一批人是极客,喜欢玩游戏的人。后来等到4G网络出现,到了最后打车开始用它的时候,开始全民化了。
机器人也是这样的,我们认为从最能落地场景开始使用。我们认为最能实现落地的,就是一系列的像讲解、移动、促销场景中,这样就可以了,这不代表我们没有在做具身智能,我们也在训练机械臂的抓取等等。很快我们就会把机械臂加到现在机器人的身体上。刚刚松鼠AI的嘉宾讲L5级,机器人也有这样的划分,就是你用了多少大模型,怎么用的大模型,用它完成什么任务?是垂直任务,还是一个通用任务?至少我们认为今天在讲解、促销、移动上能做到开放式任务了。
这是新潮传媒展厅的案例,以前的难度在于什么?第一,播放声音并不难,难的是对企业知识要足够了解,因为参观人会随时问问题。在以前就是两个方案,一个方案是问答对匹配,你要写很多问题进去,然后机器人回答。如果一旦来的人问了一个没有匹配过的问题,它就答不出来了。我女儿经常说我做的机器人是人工智障,我说“不是你老爸的机器人是人工智障,是行业目前就人工智障”。但今天有了大模型,我们把企业的介绍输入给它,加上讲解的定制方案,回答率可以到95%以上,这基本上比新员工的回答率都高了。
以前还有一个方案是后台有个人用变音器做回答。我们见过好几个客户,你们看到的网上机器人吵架吵得特别流利的,那都是两个客服小妹妹在后面,用变音器回答。那个机器人到了下午4点得下班,因为后面的小姑娘要下班。
我们今天完全实现了智能化讲解,我们已经到日本、韩国去推广这个方案。因为大语言模型有一个特点,它的多语言能力特别好,可以随时使用。
这是我们做的直播(走播)机器人的案例。以前我们进餐厅也很麻烦,各种工作,现在一键就能开直播间。开了直播间以后,在里面是完全AI在讲解。
如果你们进去看,那就是一个真正的直播小姑娘,完全感觉不出来,是全AI化的,从声音到回答问题。比如说我要看一下酸菜鱼怎么样的,它说“好的”,然后就去了,镜头里就出现酸菜鱼。或者自助餐到各个地方去看。问它双人套餐怎么样,它会告诉你双人套餐是什么样。
这是我们做的超市促销机器人的案例,时间关系就不讲了。
我们其实很早就开始做双臂机器人了,我一直有一个观点,机器人跟物理世界的接触不是从双足开始的,而是从臂开始的。双足是人类自我迷恋的产物,因为我们长两条腿,就觉得机器应该长两条腿,机器为什么要长两条腿?因为今天大部分的地方轮子可以触达,又便宜又好用,速度又快。今天的飞机也不是扇着翅膀飞上去的,但是我们都习以为常了。我们很多人都有执念,一定要搞双足机器人。
我觉得双臂是很需要的,因为很多设备只有手才能操作。我们很早就做了咖啡机器人,现在正在具身智能化。
最后讲一个知识普及点,以前的手臂怎么去动?是需要每一个关节都要写代码,所以才能实现连接。但是今天的大模型可以自己根据看到的东西,然后自己去规划,中间很多都不用管了。
我们也认为最后的机器人是赋能实体经济,真正开始走向家庭的不是从给你做菜开始,而是从你做陪伴开始,和你真正的去随时在你身边开始。
我们在北京冬奥会评测上获得了很多荣誉。
其实今天除了国内市场之外,我们发现在海外今天的机器人为什么这么火?海外的用工真的太贵了。在海外的收入,今年肯定已经有超过国内了,而且在日本、韩国、欧洲,包括美国都有代理商。我也鼓励很多创业者,如果你要做AI的应用,也可以从海外开始思考,可能机会也会非常多、更多。
大模型最后改变的不仅仅是所谓的云端技术,更多的会改变端的技术。我认为未来是云端一体的,只有有端的公司,才会有数据。有数据的公司,才会把模型真正用好。把模型真正用好的公司,才会真正的让人工智能有价值。
我今天也做一个预言,可能以后几乎所有的大模型公司都是有端的公司,这个端要么是软的,要么是硬的。以前跟我不打不相识的朱啸虎做了评论,未来五年不会再有独立的大模型公司存在。后来他又更正了说未来三年。我相信未来一定是属于端和大模型在一起的时代。
谢谢大家!
查看演讲视频回放👇