项乾消息:11月19日,在武汉召开的2024中国5G+工业互联网大会上,工信部正式发布2024年“5G+工业互联网”融合应用试点城市名单,南京、武汉、青岛、深圳、苏州、上海、宁波、广州、沈阳、成都入选首批10大试点城市;向湖北省通信管理局和武汉市发放了国家(武汉)新型互联网交换中心试点批复;发布了《2024年5G工厂名录》,遴选出400家高水平的5G工厂。
百度创始人、董事长兼首席执行官李彦宏发表主旨演讲称,通过检索增强技术的发展,过去24个月,人工智能大模型基本上消除了幻觉。
基于此,大模型应用量猛涨。李彦宏介绍,百度文心大模型在过去一年多时间中,日均调用量15亿,增长30倍。
李彦宏认为,未来多模态的检索增强技术会快速发展,使得多模态大模型进入更加实用的阶段。除了检索增强技术,大模型另外一个非常重要的发展方向是智能体,而智能体的最终极形态是多智能体的协作。
李彦宏表示,目前人工智能大模型在很多行业都有非常好的应用,在制造、能源、教育、金融、公共服务等领域,已经看到了非常实用的应用场景。尤其是在自动驾驶领域,端到端的自动驾驶技术背后是大模型技术。目前,百度第六代无人车RT6是世界上唯一一款前装量产的L4级别无人车,成本已经下降到每台25万元。
这次大会的前一天下午,湖北省委副书记、省长王忠林与李彦宏进行了座谈交流。
王忠林对李彦宏一行来访表示欢迎,向百度集团长期以来给予湖北经济社会发展的大力支持表示感谢。他说,近年来,在以习近平同志为核心的党中央坚强领导下,我省经济运行保持稳中向好、进中提质态势,交通区位、科技创新、产业基础、发展环境等优势持续巩固提升。当前,全省上下正深入学习贯彻党的二十届三中全会和习近平总书记考察湖北重要讲话精神,鼓足干劲、奋发进取,久久为功、善作善成,在长江经济带高质量发展中奋勇争先,加快建成中部地区崛起的重要战略支点,奋力谱写中国式现代化湖北篇章。湖北与百度集团合作基础良好、前景广阔。希望百度集团一如既往深耕湖北,聚焦人工智能、实数融合、新能源与智能网联汽车等领域进一步深化合作,助力湖北在推进科技创新和产业创新上开拓进取,加快打造具有全国影响力的科技创新高地,培育壮大新质生产力。我们将更大力度优化企业服务,全力以赴为百度集团等各类企业在湖北发展创造良好条件。
李彦宏感谢湖北对百度集团发展的支持,并介绍了行业发展趋势和企业创新项目进展情况。他表示,湖北科教、产业、营商环境等优势突出,百度集团将坚定不移加大在湖北投资布局,持续拓展各层次各领域合作,不断丰富人工智能等应用场景,推动更多新技术新模式在湖北落地,为湖北打造人工智能产业发展高地、推动经济高质量发展作出积极贡献。
以下是11月12日李彦宏在百度世界2024大会上的演讲实录
AI时代,应用创造世界
各位来宾,欢迎参加百度世界2024大会!每年我们都用这个机会,向大家展示百度在过去一年当中,百度在技术创新方面的最新成果,今年我们把大会的主题定成“应用来了”,这代表了我们对大模型和生成式AI当下的认知和判断。
大模型火了将近两年,相关技术以前所未有的速度进行迭代和创新,从大公司,到创业者,到风险投资,各路人马大家都在寻找生成式AI时代基于大模型的超级应用。我们看到,这张图是由第三方研究机构最近发布的全球AI全景,基本展现了大模型和生成式AI爆发过程中,一浪一浪叠加的状态。首先是OpenAI发布了ChatGPT,后来百度发布文心一言,紧接着就是谷歌发布了Bard,后来改名为Gemini;接着,以英伟达为代表的芯片厂商和微软为代表的云厂商吃到红利;然后我们也看到了开源模型的奋起直追。与此同时,各类应用层的创业公司开始获得投资,一些传统的软件厂商也开始用AI重构自己的产品。然而客观地讲,大家期待的超级应用还没有出现,甚至有人开始问,过去这24个月,这种全球性的大模型狂热,究竟是一场新的技术革命,还是新一轮泡沫?
作为中国人工智能的扛旗者,我想我们是有资格回答这个问题的。大家请看:这张图这是文心大模型的日均调用量变化曲线图,到今天这个数字已经超过了15亿,每天调用15亿。这是一条非常陡峭的增长曲线,在过去18个月当中,中国的大模型应用爆发可以用这张图或者这个曲线来代表。说实话,这个增速是超出了我的预期的。我记得今年5月份,就是6个月之前,当我们的人均调用量达到两亿的时候,我跟我的高管们讨论,讨论大模型的未来,讨论怎么就叫成了。我当时说,如果我们的调用量日均的API调用量,大模型API调用量,一年之内如果涨10倍,也就是从2亿涨到20亿,一年时间涨10倍,我认为就成了,就说明大家是真需要。现在仅仅半年过去,我们就比较接近这个数字了,势头非常猛。
调用量涨这么快,背后是文心大模型不遗余力的升级进化、降本提速的过程,也是我们紧贴客户需求,不断发现问题、解决问题的过程。去年三月,文心一言发布的时候,我们说百度大模型的特色是知识增强、检索增强。后来我们发现,检索增强并不是百度特色,而是逐步成为了行业的共识。检索增强的手段,英文叫RAG,就是Retrieval-augmented Generation。
当然,我们是做搜索起家嘛,这个方面我们理应做得最好。这个手段的意义在哪呢?它就是让大模型基本消除了幻觉。你要想基于大模型开发应用,消除幻觉是必须的,如果这个模型总是一本正经的胡说八道,就不会有人信你,就不会有应用。有人说我用模型来写小说,有点幻觉可能更有意思,更能引人入胜,不对!即使是文学创作,也需要故事前后保持一致,否则就不是智能而是智障了!
所以如果你要问我,过去这24个月,对行业而言,最大的变化是什么?那我的回答一定是,大模型基本消除了幻觉,它回答问题的准确性大大地提升了,这让AI从“一本正经的胡说八道”,变得可用、可被信赖。我们知道,大模型是一个概率模型,生成的内容是有不确定性的。但是当我们采用RAG技术后,大模型会利用检索到的信息来指导文本或答案的生成,从而极大地提高了内容的质量和准确性。
今天,文字层面的RAG已经做得很好了,但是图像等多模态内容和RAG的结合还不够。大家请看这张图,这是我们用开源模型生成的一张北京天坛的图片,看上去确实有点像天坛,但你总觉得哪儿不对。
告诉大家,真正的天坛长这个样字,是三层,但是模型生成的是四层,这是文生图比较典型的幻觉现象。这种幻觉现象,今天仍然很普遍,所以今天的多模态大模型,没有什么成规模的应用出来。就是幻觉没有解决,至少没有像文生文RAG解决得那么好。
今年年初,我们决定要解决这个问题。注意,就是在整个中文互联网都为Sora而捶胸顿足上吐下泻的时候,我们去决定解决图像生成的幻觉问题。这个问题看起来更简单、甚至更枯燥,但是不解决就不会有应用。我们开发了一项颠覆性的技术叫做iRAG,就是image based RAG,检索增强的文生图技术。
之前,完全基于大语言模型的文生图系统,生成的图片常常是“一眼假”,甚至逻辑不合常理。百度的iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力进行结合,这样就可以生成各种超真实的图片,整体效果远远超过文生图的原生系统,去掉了机器味儿。让我们看一下这个案例,提示词是:
画一张大众揽巡汽车飞越长城的图片,写实风格。
无论是车型还是车标,都没有错误或者变形,它跟长城这个背景的融合度,也非常高。这就是基于iRAG技术创作出来的一张图片,它的内容元素、画面氛围都非常真实,逼近实拍的海报,但实拍你的车是飞不起来的,就像是P上去的一样。
当然,你还可以让AI生成这辆汽车在荒野上、城市中,在各种各样真实场景的图片。随着AI生成图片的可用性大大提高,它的应用空间也随即打开了。比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在这种创作的成本接近于0。
简单说来,iRAG的商业价值体现在:无幻觉、超真实、没成本,而且呢,立等可取。试想一下,如果大众的海报生成的车型长得像丰田,那可就糟心了。
除了特定的物品,我们还可以生成特定人物跟任意场景的背景结合的照片。我们以爱因斯坦为例,生成一张他和天坛打卡的合影。大家看是不是很像,这完全是利用iRAG技术生成的。
我们用同样的提示词,用一些开源模型生成了几张,大家可以做一下比较。有的长得根本不像爱因斯坦,唯一一个长得像爱因斯坦的,那背景大家一看,也不是天坛。
可以说在全球范围内,百度的iRAG能力都是最领先的。我们还可以通过提示词,让爱因斯坦游遍全世界,比如悉尼歌剧院、复活节岛巨石阵、长城、鸟巢等等,鸟巢显然是在爱因斯坦去世后才建造的。
作为一项基础技术,iRAG在很多领域都有着很好的应用空间。比如,影视作品、漫画作品,连续画本,海报制作等,AI生图都可以大幅降低大家的创作成本。
今天,基础模型能力就绪,我们即将迎来AI应用的群星闪耀时刻。每一个应用都是一颗星,每一个应用都将成为改变世界的力量。
那么,AI应用从哪里来?到哪里去?
下面,我就讲讲两个大的AI应用方向:一个是智能体,另一个是产业应用。
我们认为,智能体是AI应用的最主流形态,即将迎来它的爆发点。
今天,全球所有顶尖科技公司都很关注智能体,但像百度这样把智能体作为最重要战略方向的并不多。我认为,做智能体很像在PC时代做网站,或者是移动时代做自媒体账号。不同之处是智能体更像人,更智能,更像你的销售,像你的客服,像你的助理。智能体可能会变成AI原生时代,内容、信息和服务的新载体。
为什么这么说?一方面,做智能体的门槛足够低,谁都能上手,在百度的文心智能体平台上,甚至我们看到有11岁的小学生在创造智能体,然后通过搜索和其他渠道分发出去。另一方面,智能体的天花板又足够的高,可以做出功能非常强大的应用。多个智能体的协作,还可以解决更加复杂的问题。今天呢,在最后的环节,我会给大家展示一个多智能体协作解决复杂问题的最惊艳的例子。
下面我就给大家展示一下4种不同类型的智能体,包括公司类智能体,角色类智能体,工具类智能体和行业类智能体。
我们首先看第一类,公司类智能体。它就相当于AI时代的公司官网。传统官网具有的那些能力,比如公司介绍、产品图片和参数展示、线下门店位置等等,公司类智能体都有。而传统网站没有的主动推荐、及时响应和一对一服务能力,公司智能体也有。
我们以比亚迪的智能体为例,和一个传统官网做个比较。
在百度搜索“比亚迪”,就能直接唤起它的官方智能体。点击进入,它会首先给你一段比亚迪品牌的简短介绍,这就类似于传统的官网。
然后,你让它推荐一台性能均衡的车型。什么叫“性能均衡”,传统的官网不知道什么是性能均衡,所以没法儿给你推荐,而有了大模型理解能力的智能体,就可以很好地做出筛选,给出建议,并且展示产品的图片。
当你对几个车型都有兴趣,想比较一下,看哪个值得买的时候,在传统的官网上是要花费比较多时间的。因为每个车型对应的商品详情页都是单独的,你得在不同商品详情页之间来回切换着看,非常麻烦。而智能体可以直接给你把多个车型的动力类型、车身尺寸、续航、加速性能放在一起拉出表格来,非常直观。
如果,你想进一步到线下门店去试驾怎么办?智能体可以直接调用地图,帮你一键导航,直达目的地。
另外,还有一点是智能体与传统官网很不一样的,那就是对最新信息或者最个性化问题的回答。传统的官网,对外界市场信息变化往往不敏感,客服人员对于个性化的问题也难以给出令人满意的回答,所以通常只能做记录,再电话回访。而智能体可以利用大模型的理解、生成、逻辑、记忆四大能力和检索增强能力,快速从网上获取最新、最准确的消息,并在一秒钟之内就给出一个令人满意的答案。
如果你还有更复杂的问题,智能体也可以通过不断地跟你澄清、互动、反问,来最终满足你的需求。
不仅是比亚迪,像联想、沙宣、洋河这些企业,现在都已经拥有了自己的官方智能体。比起传统的官网,智能体既是你的品牌顾问又是你的金牌销售和客服,既专业又贴心,一对一的服务,大幅地提升了互动营销的效率。比亚迪的官方智能体上线后,销售线索转化率提升了119%。联想AIPC智能体在9月份的互动率提升了89%,销售线索转化率提升了80%。
未来,公司官方智能体很可能会替代官网,成为最直接的面向消费者的界面。
我们再来看第二类,角色智能体。提到角色,大家很容易想到数字人。数字人有自己的人设、自己的知识库,这都是典型的智能体基本要素。
所以当智能体机制和多模态进行有效结合的时候,它就变成了一个有形象、有动作,并且动作可以跟语言可以匹配起来的数字人。之前的数字人,短板是显而易见的。它们说话的声音、肢体动作、口型都非常机械、呆板。但是,在大模型加持下,数字人逐渐变成了高度拟人化的智能体,更聪明、有情感、有态度。他们可能是教育辅导老师,留学顾问,也可能是心理咨询师,私人健身教练等等,都非常受欢迎。
今天,你在百度搜索“教育辅导”这样的关键字,在搜索结果页中,就能看到这些数字人。他们不仅比我们以前看到的数字人更加自然、动作幅度更大,甚至在直播场景下,还可以说着说着,在合适的时机停下,回复网友现场提出的问题。这需要大量的数据积累和直播互动规律的总结提炼,以前,我们是不具备这样的能力。所以今天的数字人直播,很多情况下,转化率已经超过了真人。
这些数字人,动作、语言、口型非常自然,如果不说的话,你都不知道是数字人。数字人的好处在于它的脚本完全是AI生成的,很多数据,非常详细的数据,真人在直播的时候,他是记不住的,数字人完全没有问题。所以他的知识量,他的实际反应能力,很多时候是超越了普通真人了已经。
我们非常地相信,真人与虚拟人的交互,将创造巨大的产业价值和社会价值。这里的虚拟人,可能就是现实生活中的一位名师的数字分身,也可能是一位名医、王牌律师和金牌销售的数字分身,而你从来没有像现在这样离他们如此之近。
我要讲的第三类智能体是工具类。工具类智能体其实是个热门赛道。笔灵AI写作、canva设计助手、logo生成器等等,这些都是典型的工具智能体。
下面,我给大家展示一个全新的工具类智能体,是由百度文库和网盘联合开发的“自由画布”。我们以行业分析师写研究报告作为例子,来给大家介绍一下自由画布。在很多人的认知中,行研报告就是图文结合的内容。但今天,它可以是另一种形态,有传统的图文、表格,也有像发布会视频、电话会录音,组成一种更全的多模态报告。这在自由画布上,可以很好地实现。我们来看一下,什么叫做自由画布。
首先,我们打开百度APP,搜索“智能写作”等关键词,就可以找到“自由画布”智能体,它可以帮你完成从找资料、到编辑、再到生成和分享的全部任务。
第一步,输入自由。自由画布打通了公域和私域的数据,比如,文库上公开的高质量文档或片段,外部网页公开的这些内容,可以一键摘录到自由画布。来自私域的内容,比如你在像网盘听记上记录的多场电话会议的音频,比如你在收藏在网盘里的专业视频和深度调研报告等等,不限格式、不限来源,全部都可以拖到画布上。这是输入自由。
第二步,编辑自由:你不再需要去做居中、调字号、排版等基础繁杂的工作。我们今天,重新定义了编辑,让用户成为总指挥,通过批注的方式告诉AI,如何利用素材,也可以圈选出最需要的内容片段,或者原封不动要复用的部分,这样就能确保生成的内容,完全符合你的真实想法。
第三步,我们叫做创作自由:划好重点之后,框选全部需要的素材一键生成,AI就会根据输入和要求开始思考,在对应章节下利用相关素材,生成一个结构清晰的、全新的富媒体内容。
当然,你也可以打开这些文档,再做局部的编辑,以及改写、扩写、续写。实现一边在画布上捋思路,做草稿,一边在文档上完善细化,一站式解决各种各样的问题。
最后,我们叫做分享自由:最终生成的内容可以保存在本地,也可以上传在用户的个人云上,还可以用一个链接分享出去,无论是行业交流群、朋友圈或者其他平台,都可以直接打开链接观看播放。
所以不管你是内容的生产者还是消费者,都再也不用关心文件的格式是什么、我的手机或电脑有没有相关的应用、内存还够不够等等这些琐事了。
除了上面这种办公场景,我再给大家演示一个偏向于个人创作场景的案例。大家知道今年“黑神话悟空”很火,我们想让AI帮我们放飞想象,看看大圣穿越到现代,会发生什么?
自由画布根据我的要求,生成了一个大圣穿越到现代探险的故事。
那我们是不是可以基于这个故事,生成一幅漫画呢?当然可以!你们看,在漫画中,孙悟空游览了山西几个打卡圣地,最后来到了上海。大家注意看,不同图片中的孙悟空,它的一致性是非常好的,前后看着都像一个孙悟空,还结合故事情节做出了对应的动作。
漫画很生动。我们能不能让AI生成视频?我们来看一下:
所以大家看到,原本漫画中的对白,变成了字幕和配音,让故事更加生动。
那如果我们脑洞再大一点,让一个小朋友穿越到花果山怎么样?其实很简单,你只需要上传一张小朋友自己的照片,就能让他融入到这个个人定制画本中。你们看,自由画布已经生成了一个小朋友梦游花果山的故事。接下来,点击制作画本就可以了,画面中小朋友的神态和真人照片可以做得非常相似。
讲到这呢,大家可以感觉到,自由画布就是一个由文心多模态大模型加持的万能白板,它能很好地激发人们的无限灵感和创造力。因为自由画布,每个孩子都能成为故事的主角。因为自由画布,每个人都可以是漫画家、成为短视频导演。而且,这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!我们很快会正式上线。
第四类智能体,我们称之为“行业智能体”。比如法律、医疗健康、金融、体育、旅行等等领域,都涌现出很多有用的智能体。
我们来看一个法律行业的智能体——法行宝。
每个人工作生活中,都会遇到各类法律相关的问题,但不是每个人都能第一时间找到专业的律师来帮自己支招。这时,法行宝就很有用了。它是很受用户欢迎的智能体,在百度的平台上,已经回答了超过1660万个问题。
我们来看看它具体能做什么?
我有一个朋友昨天被车撞了,现在躺在医院花了很多钱,报警后,警察说是对方全责,但对方不给赔偿,该怎么办?
针对这个情况,法行宝给出了四个步骤的指导,先是保留相关证据,请求交管部门去调解,如果调解失败,可以再提起民事诉讼、申请法院的强制执行。你可能还想知道,如果赔偿,能获得多少赔偿金?这也可以继续咨询:
医生说他还有三个月才能正常走路,交通事故赔偿怎么计算?
这时,它会提供一个赔偿计算器,要求你补充关于赔偿责任、事故时间地点、伤者工作收入、伤残认定等详细信息,最后给出了一个事故造成的总损失和赔偿金计算。
如果想靠起诉状来拿回这笔赔偿金,法行宝还可以帮你写一封起诉状:
帮我写一封交通事故起诉状。
和之前一样,它会继续询问身份、代理人这些详细信息,然后帮你生成。我们看到,现在起诉状写好了,填上事实细节就可以使用。所以,法行宝不仅能像专业律师一样给出专业解答,还能调用大模型的生成能力,生成起诉状。
当然,如果你还想找真正的名牌律师咨询更加复杂的私人问题,法行宝还能够按照不同领域给你推荐知名律师,来提供进一步帮助。
上线半年多以来,法行宝为940万多人提供了高效、可信赖的法律服务,成为了每个普通人专属的AI免费律师。
目前,文心智能体平台上,已经吸引了15万家企业和80多万名开发者参与,覆盖的应用场景非常非常多。
现在大屏上显示的,就是文心智能体平台的TOP100智能体。是我们基于智能体的分发量、平均对话轮次、用户喜爱度等指标综合遴选出来的。有角色类的,像农民院士智能体,有工具类、行业类的智能体,更有职场、情感、娱乐等类型的智能体。
百度还邀请英伟达作为技术合作伙伴,共同发起了“文心智能体创新大赛”,大赛涌现出很多有价值的智能体应用。
前面我讲了智能体。下面我再讲一下大模型的产业应用。
大模型如何在产业落地?如何为千行百业的企业创造增量价值?这是我们一直在探索的问题。过去这一年半左右,我们看到在金融、能源、教育、招聘、公共服务等各个领域,大模型跟场景结合后,在降本和增效两个方面都取得了实实在在的成果。
百度智能云是我们构建智能产业生态的主要依托。目前在百度智能云的千帆大模型平台上,我们已经累计帮助用户精调了3.3万个大模型,开发出了77万个企业级应用,百度智能云已经拥有中国最大的大模型产业落地规模,一半以上的央国企以及很多很多的民营企业,都在联合百度智能云进行AI创新。
我们来看以下两个案例:
一个是大型企业的代表——百胜中国。大家知道这是国内规模最大的餐饮公司,我们经常光顾的肯德基、必胜客,都是百胜旗下品牌。百度和百胜一直有良好合作,最早是在『门店选址评估』方面,我们帮助百胜完成了新增数千家门店的选址,大幅提升了选址质量和效率。在客服领域,我们提供了客服产品和大模型能力,服务百胜旗下多个品牌。尤其是解决了原来的客服机器人,难以识别客户真实意图、没法关联上下文的问题。
目前,我们的客服应用和解决方案,已经覆盖了百胜全线业务,大模型每天调用量的峰值达到数百万,客服机器人的『问题解决率』提升到了90%。在大模型时代,百胜还需要建设一个安全可信的大模型服务专区,来满足内部各品牌、各业务线的AIGC应用需求。
因此,我们提供了千帆平台、文心Speed模型、基础云算力服务等给百胜,构建了完善优质的大模型底座能力,帮助百胜更加便捷地开发和部署AI应用。
除此之外,我们正在和百胜一起,把ASR、TTS、大模型和数字人的技术结合起来,共同验证在点餐屏上打造大模型点餐的能力。
未来,我们还将继续合作,共同探索企业数字化、智能化转型等各种各样的可能性。
下个例子是互联网行业的代表。智联招聘是国内领先的招聘平台。
招聘平台最主要的工作就是把合适的人匹配到合适的岗位上。过去这个工作大量地依靠人工来完成,人工地给岗位打标签,人工地去筛选海量的简历,人工地去分析求职者的对话,不仅费时费力,效果也难以保证,经常会有遗漏和错配。
百度和智联招聘合作,利用大模型重构了这个核心环节。通过自然语言对话,结合岗位的描述,迅速地为求职者和岗位画出精准的匹配画像,并且自动回答有关工作时长、薪资福利、工作地点这些求职者关心的问题,甚至进一步帮助安排面试。既为求职者推荐了合适的职位,也为用人单位精准筛选出所需的人才,显著提高了用人单位的招聘效率和质量。目前,百度和智联招聘合作,已经成功沉淀出一系列提示词模板,并在数万条实际数据中得到了验证,人岗匹配的平均准确率高达93%,而大模型使用的成本却下降了约90%,为招聘行业带来了全新变革,。
让每一位求职者都能更轻松地找到心仪工作,让每一家企业都能更高效地获得所需人才。
今天,我在这里发布基于大模型的100大产业应用,它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业,百度希望与更多合作伙伴和客户一起推动智能产业生态的建设,共同来加速国家“人工智能+”行动计划的落地。
发布这100大产业应用,其实也代表我们的认知和态度。百度不是要推出一个“超级应用”,而是要不断地帮助更多人、更多企业打造出数百万“超级有用”的应用。
今天,我们的确有条件让一行代码都看不懂的人具备程序员的能力,有让任何一个想法都能迅速地、低成本地变为现实的能力。当然,这需要工具,这个工具就是我为大家带来的、今天的One More Thing——秒哒!
一个不需要写代码就能够实现任意想法的软件,一个由大模型和智能体组成的全新的软件,我认为它是“迄今为止人类历史上最复杂的多智能体协作工具”,它包括无代码编程、多智能体协作以及规模化地调用各种的工具等能力。
注意,秒哒是跟任何辅助代码生成工具是完全不一样的,因为它根本不需要你能看懂代码,所以看直播的朋友们,如果你是程序员,那你现在可以不看了,这个软件是给非程序员来用的。
我用一个例子来给大家展示一下秒哒的能力:
假设我们要为萝卜快跑开个新技术发布会。我需要打造一个活动邀请系统,把邀请函分享给其他人,并且收集他们的想法和反馈。首先,上传了一个有大会时间地点主题的文件给秒哒。
我们来看看,秒哒将如何满足我这个需求。接收到指令后,屏幕上出现了0号智能体,就是小组长。它是整个智能体团队的核心,负责规划调度。它将这个任务拆解成了需求确定、内容生产、工程开发三个步骤。并且告诉我,它会召唤各个智能体来协作完成任务。
首先召唤的是1号智能体,是策划智能体,负责活动邀请函的策划、设计解决方案。那1号智能体又将这个任务拆分成:核心需求、内容结构、开发需求、数据收集四个子任务。
接下来,2号智能体就被召唤出来了,即小编智能体,它的主要职责是编辑邀请函中的所有文字和媒体内容。邀请函需要在正文里包含一段发布展望,这个智能体通过全网搜索和总结,写出了一段关于萝卜快跑的精彩描述。它自动阅读上传文件后把时间地点等核心信息提取出来放到了合适的位置上。对于封面图,我提出新的需求,给智能体几张萝卜快跑六代车的照片,让它生成一个充满科技感的图片作为邀请函封面。我们看到智能体通过iRAG的能力,成功绘制出了一张带有RT6的封面图。
然后,3号智能体出场,它是程序员智能体,负责写代码,来制作和部署网页。大家看屏幕上,就是智能体在自动写代码,。但你完全不需要看懂这一侧的东西,你只要看得懂那边人话就行了。
等它写完后,4号智能体质检员出场了,它发现了一个bug,所以把程序员智能体再叫回来,重新写、重新改代码。可以看到,质检员智能体会利用反思能力,运行测试代码,看看代码是不是跑得通。
现在智能体已经把代码修复好了,自动生成了邀请函,但我觉得这个画风不够好看,想再换一个更有科技感的。输入这个想法后,程序员智能体会再写一次代码,给出一个新版本,这次换成了一个更有科技感的色调,有邀请函、会议日程,最后还附上了参会报名的界面,通过调用地图的API,嘉宾就可以一键导航到达会场。我们输入个测试信息。
最后,可以在后台看到,这条报名信息已经在统计表格中了。
这样一个发布会的邀请系统,从你开始到最后结束,只需要3分钟,用户不用写一行代码,就可以完成。
整个过程体现了整个过程体现了秒哒的三个特性:第一是无代码编程、第二是第三是多智能体协作、多工具调用。无代码编程,是由大模型直接生成代码,不需要人写一行代码,所以门槛就大大降低了,每个人都可以去做,每个人都可上手;多智能体协作,是基于文心大模型思考、规划等能力,实现对不同类型智能体的调度、编排,这个任务中一共有5个智能体协作完成;多工具的调用,刚才这个例子当中,调用三个工具,一个是网页检索工具,他要到网上去找RT6各种各样的资料来进行创作;一个是iRAG,就是图片的检索生成,我们给了RT6图片之后,可以保持原来的精准度,生成相应的图片;还有地图的API调用。
有了秒哒,一个人通过自然语言交互,就可以完成一整套系统的搭建。
除了上面展示的邀请系统,秒哒还可以做任意场景下的各种应用,应用的复杂度也会随着我们技术的提升不断提升。最早开始的时候,它只能做一些比较简单的编程,比如说两三百行代码,以后随着基础模型能力提升,以及秒哒本身技术能力的演进,它就可以做越来越多的,越来越复杂的事情。这意味着什么?这意味着,你不需要去招募项目经理、设计人员、开发人员、测试人员等等,自己就可以指挥多个智能体来协同完成任务。也就是说,只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。以前有个想法,你还要去执行,把想法做出来。现在只要你有想法,秒哒就可以帮你做了。
我想,AI之所以被称为产业革命级的机会,就是因为它对于社会经济,带来了生产力的无限扩张。秒哒让每一个人都能具备程序员的能力,会说话就能做出应用来,它对于人类工作效率的提升怎么说都不为过。现在你就可以去排队预约,我们明年第一季度发布秒哒,大家就可以试用了。
今天,我们用大约一个小时的时间,回顾了过去24个月,全球生成式AI变革带来的应用大爆发,也发布了文心iRAG和无代码秒哒两大技术,展示了智能体、产业应用两大应用方向的案例。可以看出,AI应用的时代是真的来了!
当然,在人类信息技术变革的不同历史时期,应用出现的的样貌也不一样:在PC时期,它是一个个的软件和网站;在移动时期,它是一个个的APP和被关注的账号;在AI时代,应用最主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。
我是软件工程师出身,国外有一种说法叫“软件吞噬世界”。但我认为,这个世界不应该被吞噬,而应该被创造。AI时代,应用创造世界。所以请大家和我一起见证,AI applications creating the world.