智能体如何加速产业升级?
文丨亿欧
编辑丨路永丽
12月18日,由亿欧主办的WIM2024创新者年会在北京威斯汀酒店正式拉开帷幕。
本届WIM创新者年会以“AI For X 未来产业范式跃迁”为主题。这是中国第一场专门聚焦“未来产业”的千人峰会——会议邀请了来自未来产业界的100+位头部企业专业嘉宾、超过2000位行业从业者齐聚一堂,共同总结2024年未来产业创新成果,预测2025年最新创业创新趋势。
本次大会在北京、上海、深圳三地举办,三城联动、持续三天(12月18日-20日),会议以独立演讲、圆桌论坛、报告首发、百人晚宴、榜单发布等多种丰富形式,为大家带来一场商业视听盛宴!
2024年是世界创新者年会(World Innovators Meet,WIM)走过的第十个年头。十年来,中国科技创新动能澎湃,新兴产业风起云涌。
本次峰会邀请了云知声创始人兼CEO黄伟,发表了《智能体加速产业升级》的主题演讲,他的主要观点如下:
以下是速记整理(有删减):各位朋友大家下午好!非常高兴有机会参加这样一个活动,今天借着这个机会给大家分享一下我们的观点,智能体如何加速产业升级?
以OpenAI发布ChatGPT为一个时间分界线,在那之前我们称之为AI 1.0,有了大模型之后称之为AI 2.0。
1.0和2.0区别是什么?1.0的模型能力是非常有限的,只能做判断题。大模型让我们具备了涌现能力、更强的智能能力,我们从原来只能做选择题到今天可以写作文了,是质的突破。
作为企业我们不具备这种能力的话,在市场竞争里就会失去竞争力。从国家角度来讲,如果说中国在人工智能方面不能站在世界最前沿的话,我们肯定在国际竞争中失去竞争力。
今天大模型带来的几大变化,第一个是大模型通过算力结合我们对数据的加工,让智能变得标准化。
在1.0时代针对任务,我们做一些定制化的专用模型。在2.0时代智能体本身具备学习能力,具备泛场景能力,包括几个典型特点,比如说多模态对话能力,数字专家能力甚至与具身智能结合。
像自动驾驶L1-L5一样,人工智能也有分级,目前Agent可能在L3的状态,随着我们模型能力进一步提升,也许未来很多科研创新就是人工智能自己来创造的。
大模型发布快两年,回头来看,中国和美国人工智能的环境不太一样,我们科技成本不会比美国低,但在商业回报方面漫长一点,对于中国科技创业团队来讲,如果想在人工智能创业方面,从技术、产品、商业这个路径走得更顺,必须要客观对待中国创业环境,并对中国消费市场有更加充分的理解。
云知声在这个领域做了十多年,不管今天我们把人工智能、大模型概念抬得再高,我们非常清晰的认识到在中国技术只有和应用场景去结合,创造实际价值才能成为真正的新质生产力。对企业客户而言,大模型只是产品,产品服务才是价值,没有人为模型指标去买单。
例如,对于像豆包、Kimi这样的大模型产品,实际上个人用户为之付费的情况并不多见,通常这些费用是企业承担的。
此外,与其讨论人工智能取代工作岗位,不如探讨如何利用人工智能优化工作流程。那些真正掌握并有效运用人工智能技术的人,将能够显著提升自身的竞争力。通过智能体的合理应用,可以增强工作效率,推动创新,从而在激烈的市场竞争中占据优势。
对于中国而言,人工通用智能(AGI)产业的升级应当聚焦于民生和制造业的发展,这是中国相较于美国的优势所在。尽管在计算资源(如GPU卡)的数量和人才密度方面,中国目前还难以超越美国,但在大模型技术领域中国已经取得了显著进展,与美国的差距正在缩小,甚至在某些专业领域已经实现了超越。
今天有了大模型之后,我们甚至可以打造一个专业性更强的数字医生,在医疗水平不是很发达的地方,我们甚至可以做到替代医生的水平。
这就是说在医疗场景里面我们在不同阶段,用我们的能力打造满足这个场景里面一些阶段性痛点需求的产品。
做这些是希望解决人们高质量低成本诉求,以及医疗资源相对不充分、分布不平衡的矛盾。
回想一下我们自己十多年的发展之路,基本上是按照这个路径来走的,在不同阶段用不同能力为医疗赋能。
大约在去年五月份,我们推出了山海大模型的第一版。回顾过去,山海大模型的能力与一年前相比有了巨大的飞跃,我们已经实现了一年多前难以想象的技术进步。在国内知名的大模型平台排行榜中,今年七月份对上半年国内大模型的综合对比显示,山海大模型已经跻身全球第一梯队,并且被评为卓越领导者。
今年八月,我们发布了具备文本、图像和音频处理能力的多模态大模型,并在MMMU权威评测的通用医疗领域中荣获全球第一,彰显了山海大模型在多模态应用领域的领先地位。
刚才展示的视频是一款类似GPT-4o的多模态大模型,该模型能够实现语音输入与语音输出的功能。这与以往多数大模型的文本输入与文本输出模式有所不同。
在移动环境中,例如在驾驶座舱中,用户显然无法方便地进行文本交互。因此,我们将音频、文本和视频整合到一个大模型中,实现了语音交互的效果,如视频中所示。此外,该模型还能够进行情感响应,能够灵活地在中文和四川话之间切换,从而增强了多模态交互的能力。
目前,我们已经成功地将模型优化至足够小的规模,使其能够在高通车载芯片中进行有效的推理运算。
在视频中大家可以注意到,该系统能够同时处理音频、视频和对话,并允许用户随时进行打断。设想将此技术应用于医疗领域,它将不仅仅是处理病历文本信息。通过这些先进的功能,大型模型将能够实现对医疗场景的深入理解和响应,即“耳熟目名”,提供更为精准的服务。
装备了这些能力的多模态大模型,将能够在各种业务场景中,以更丰富的交互方式,更有效地满足用户的具体需求。
前面我们讲的更多是模型的技术能力,需要强调的是,模型做的再好都只是成本,关键是说大模型能不能在这些场景里面为用户创造价值。
下面两个视频是我们在医院工作的场景。
医疗场景对准确性的要求极高,任何小错误都可能带来严重后果。与娱乐应用相比,医疗应用的容错性极低,因此在医院环境中应用大模型的挑战极大。
该视频展示的项目始于去年,当时在国内一家知名的三甲医院的三个科室中得到应用。如今,这一项目已在该医院的超过十个科室的门诊环境中正式部署,这些科室几乎涵盖了医院70%至80%的门诊量。
通过这一系统,我们成功构建了一个类似全科医生的智能代理(Agent),它能够为医生提供辅助,尤其是在中西部地区的医院,为那些经验尚浅的年轻医生提供指导和支持。
进一步设想,若将此技术与家庭中的可穿戴设备及其他硬件相结合,我们便能为每个家庭配备一位数字医生,提供便捷的医疗服务。
此外,该技术在多个场景中具有广泛的应用潜力,例如与保险行业的合作,无论是在主动营销还是保险控费方面,都能够实现成本降低和效率提升。
视频展示的场景就是前面描述的我们从助手到同事,这个场景我们专业性,甚至能够在某些地方我们扮演医生导师的能力。
视频所呈现的场景,正是前文所述的人工智能从“助手“这一辅助角色发展到与医疗专业人员并肩工作的”同事“的实例。
以医疗场景为例,今天的智能体已具备极强的能力,它能够在医疗、教育、金融、交通等多个领域在各个场景里面带动更加广阔的产业升级,我们认为,今天所有行业都值得用人工智能全做一遍。
当然我们还有很多挑战,我们需要解决创造的价值谁来买单,以及如何确保技术的安全并降低成本等问题。
目前,我们看到的多模态技术主要涉及音频、视频和文本的处理。未来,我们有望整合更多样化的传感器,并与具身智能技术相结合,以实现与物理世界的更直接互动。若能实现这些目标,人工智能的发展将前进一大步,为社会带来更深远的影响。
总体而言,人工智能作为一种强大的生产驱动力,为社会经济发展带来了深远的影响。人工通用智能(AGI)的实现有望进一步拓展市场空间,为各行各业提供更多可能性。我们期待与各位携手合作,在即将到来的时代中,通过共同努力,创造更多的价值。
谢谢大家!