云知声创始人兼CEO黄伟:智能体加速产业升级

科技   2024-12-20 11:03   北京  

智能体如何加速产业升级?                     




文丨亿欧

编辑丨路永丽


12月18日,由亿欧主办的WIM2024创新者年会在北京威斯汀酒店正式拉开帷幕。

本届WIM创新者年会以“AI For X 未来产业范式跃迁”为主题。这是中国第一场专门聚焦“未来产业”的千人峰会——会议邀请了来自未来产业界的100+位头部企业专业嘉宾、超过2000位行业从业者齐聚一堂,共同总结2024年未来产业创新成果,预测2025年最新创业创新趋势。

本次大会在北京、上海、深圳三地举办,三城联动、持续三天(12月18日-20日),会议以独立演讲、圆桌论坛、报告首发、百人晚宴、榜单发布等多种丰富形式,为大家带来一场商业视听盛宴!

2024年是世界创新者年会(World Innovators Meet,WIM)走过的第十个年头。十年来,中国科技创新动能澎湃,新兴产业风起云涌。

本次峰会邀请了云知声创始人兼CEO黄伟,发表了《智能体加速产业升级》的主题演讲,他的主要观点如下:

1、在中国,技术只有和应用场景去结合,创造实际价值才能成为真正的新质生产力。
2、大模型通过算力结合我们对数据的加工,让智能变得标准化,像自动驾驶l1-L5一样,目前Agent可能在L3的状态。
3、中国AGI产业升级的特点或者痛点,还是聚焦民生与制造业发展,这个是中国相对于美国的优势之处。
4、模型做的再好都只是成本,关键是大模型能否在这些场景里面为用户创造价值。
5、基于具体场景需求,在不同阶段,打造解决场景阶段性痛点的智能体。
6、智能体将在各个场景里面带动更加广阔的产业升级,但需要解决我们创造的价值谁来买单,以及怎么提升安全、降低成本问题。

以下是速记整理(有删减):各位朋友大家下午好!非常高兴有机会参加这样一个活动,今天借着这个机会给大家分享一下我们的观点,智能体如何加速产业升级?

以OpenAI发布ChatGPT为一个时间分界线,在那之前我们称之为AI 1.0,有了大模型之后称之为AI 2.0。

1.0和2.0区别是什么?1.0的模型能力是非常有限的,只能做判断题。大模型让我们具备了涌现能力、更强的智能能力,我们从原来只能做选择题到今天可以写作文了,是质的突破。

大家在提人工智能是第四次工业革命,是新质生产力,其实Agent本身我个人理解就是一个新质生产力的典型代表。 
Agent具备自主性。以前我们完成一个任务需要把每个步骤设定清楚,让集合执行,今天我们只需要告诉他目标是什么,Agent会自己组织第一步、第二步、第三步把任务完成。
同时Agent也有环境感知能力,它可以结合自己所处的场景,根据环境的变化对任务进行调整。通过完成任务过程中不断地总结经验,会变得更加智能。
此外,它还具备组织协同能力,能够与其他Agent或人类进行交互和协作。
从上述几大属性看,智能体有类似于人的能力。
结合到今天中国人口老龄化各种各样的问题,如果说我们作为个人不掌握这些人工智能能力的话,我们在职场中没有竞争能力。

作为企业我们不具备这种能力的话在市场竞争里就会失去竞争力。从国家角度来讲,如果说中国在人工智能方面不能站在世界最前沿的话,我们肯定在国际竞争中失去竞争力。

今天大模型带来的几大变化,第一个是大模型通过算力结合我们对数据的加工,让智能变得标准化。

在1.0时代针对任务,我们做一些定制化的专用模型。在2.0时代智能体本身具备学习能力,具备泛场景能力,包括几个典型特点,比如说多模态对话能力,数字专家能力甚至与具身智能结合。

像自动驾驶L1-L5一样,人工智能也有分级,目前Agent可能在L3的状态,随着我们模型能力进一步提升,也许未来很多科研创新就是人工智能自己来创造的。

大模型发布快两年,回头来看,中国和美国人工智能的环境不太一样,我们科技成本不会比美国低,但在商业回报方面漫长一点,对于中国科技创业团队来讲,如果想在人工智能创业方面,从技术、产品、商业这个路径走得更顺,必须要客观对待中国创业环境,并对中国消费市场有更加充分的理解。

云知声在这个领域做了十多年,不管今天我们把人工智能、大模型概念抬得再高,我们非常清晰的认识到在中国技术只有和应用场景去结合,创造实际价值才能成为真正的新质生产力。对企业客户而言,大模型只是产品,产品服务才是价值,没有人为模型指标去买单。

例如,对于像豆包、Kimi这样的大模型产品,实际上个人用户为之付费的情况并不多见,通常这些费用是企业承担的。

此外,与其讨论人工智能取代工作岗位,不如探讨如何利用人工智能优化工作流程。那些真正掌握并有效运用人工智能技术的人,将能够显著提升自身的竞争力。通过智能体的合理应用,可以增强工作效率,推动创新,从而在激烈的市场竞争中占据优势。

对于中国而言,人工通用智能(AGI)产业的升级应当聚焦于民生和制造业的发展,这是中国相较于美国的优势所在。尽管在计算资源(如GPU卡)的数量和人才密度方面,中国目前还难以超越美国,但在大模型技术领域中国已经取得了显著进展,与美国的差距正在缩小,甚至在某些专业领域已经实现了超越。

但光有这些不够,我们还要发挥利用好中国产业环境、产业数据方面的优势,在专业场景里面打造更有竞争力的模型和应用。

我们从医疗领域的一个“数字医生”智能体成长之路分析一下怎样去打造一个场景的智能体。
当前,中国社会正面临人口老龄化和生育率下降的重大挑战。与此同时,公众对于医疗服务的需求呈现出高质量与低成本并存的双重期待,这在表面上看似矛盾。在这样的背景下,探讨如何利用数字技术与医疗专家的协作,以解决传统医疗中做不了、做不好以及成本过高的问题,具有重要意义。

在医疗领域中应用智能体,我们经历了一个阶段性演进的过程。在早期阶段,人工智能主要扮演着辅助角色。例如,十年前在协和医院推出的一款新产品,利用语音识别技术辅助医生更高效地录入病历,显著提升了医疗文档处理的效率。这一产品在当时仅能作为医生的助手,帮助简化工作流程。
随着技术进步,人工智能的能力得到了显著提升。在随后的阶段,人工智能开始承担起更多职责,类似于医生的同事。大约六七年前,我们开发了基于BOT模型的病例质控系统,该系统能够帮助医院医生对病历质量进行监控。这要求系统具备全文阅读病历的能力和专业的医疗知识,以便准确把控病历的质量。

今天有了大模型之后,我们甚至可以打造一个专业性更强的数字医生,在医疗水平不是很发达的地方,我们甚至可以做到替代医生的水平。

这就是说在医疗场景里面我们在不同阶段,用我们的能力打造满足这个场景里面一些阶段性痛点需求的产品。

做这些是希望解决人们高质量低成本诉求,以及医疗资源相对不充分、分布不平衡的矛盾。

回想一下我们自己十多年的发展之路,基本上是按照这个路径来走的,在不同阶段用不同能力为医疗赋能。

大约在去年五月份,我们推出了山海大模型的第一版。回顾过去,山海大模型的能力与一年前相比有了巨大的飞跃,我们已经实现了一年多前难以想象的技术进步。在国内知名的大模型平台排行榜中,今年七月份对上半年国内大模型的综合对比显示,山海大模型已经跻身全球第一梯队,并且被评为卓越领导者。

今年八月,我们发布了具备文本、图像和音频处理能力的多模态大模型,并在MMMU权威评测的通用医疗领域中荣获全球第一,彰显了山海大模型在多模态应用领域的领先地位。

刚才展示的视频是一款类似GPT-4o的多模态大模型,该模型能够实现语音输入与语音输出的功能。这与以往多数大模型的文本输入与文本输出模式有所不同。

在移动环境中,例如在驾驶座舱中,用户显然无法方便地进行文本交互。因此,我们将音频、文本和视频整合到一个大模型中,实现了语音交互的效果,如视频中所示。此外,该模型还能够进行情感响应,能够灵活地在中文和四川话之间切换,从而增强了多模态交互的能力。

目前,我们已经成功地将模型优化至足够小的规模,使其能够在高通车载芯片中进行有效的推理运算。

在视频中大家可以注意到,该系统能够同时处理音频、视频和对话,并允许用户随时进行打断。设想将此技术应用于医疗领域,它将不仅仅是处理病历文本信息。通过这些先进的功能,大型模型将能够实现对医疗场景的深入理解和响应,即“耳熟目名”,提供更为精准的服务。

装备了这些能力的多模态大模型,将能够在各种业务场景中,以更丰富的交互方式,更有效地满足用户的具体需求。

前面我们讲的更多是模型的技术能力,需要强调的是,模型做的再好都只是成本,关键是说大模型能不能在这些场景里面为用户创造价值。

下面两个视频是我们在医院工作的场景。

视频展示的是门诊的应用案例,左边显示医患对话,中间我们的大模型会把医患对话中的关键信息提炼出来,那么医生问诊之后只需要对关键信息进行确认,一键生成一个病例,其中包括病情诊断和治疗方案。这一过程在复杂的门诊环境中实现,需要精确区分医生与患者的对话,并从多轮交流中筛选出与病历相关的信息,其难度不容小觑。

医疗场景对准确性的要求极高,任何小错误都可能带来严重后果。与娱乐应用相比,医疗应用的容错性极低,因此在医院环境中应用大模型的挑战极大。

该视频展示的项目始于去年,当时在国内一家知名的三甲医院的三个科室中得到应用。如今,这一项目已在该医院的超过十个科室的门诊环境中正式部署,这些科室几乎涵盖了医院70%至80%的门诊量。

通过这一系统,我们成功构建了一个类似全科医生的智能代理(Agent),它能够为医生提供辅助,尤其是在中西部地区的医院,为那些经验尚浅的年轻医生提供指导和支持。

进一步设想,若将此技术与家庭中的可穿戴设备及其他硬件相结合,我们便能为每个家庭配备一位数字医生,提供便捷的医疗服务。

此外,该技术在多个场景中具有广泛的应用潜力,例如与保险行业的合作,无论是在主动营销还是保险控费方面,都能够实现成本降低和效率提升。

视频展示的场景就是前面描述的我们从助手到同事,这个场景我们专业性,甚至能够在某些地方我们扮演医生导师的能力。

视频所呈现的场景,正是前文所述的人工智能从“助手“这一辅助角色发展到与医疗专业人员并肩工作的”同事“的实例。

以医疗场景为例,今天的智能体已具备极强的能力,它能够在医疗、教育、金融、交通等多个领域在各个场景里面带动更加广阔的产业升级,我们认为,今天所有行业都值得用人工智能全做一遍。

当然我们还有很多挑战,我们需要解决创造的价值谁来买单,以及如何确保技术的安全并降低成本等问题。

目前,我们看到的多模态技术主要涉及音频、视频和文本的处理。未来,我们有望整合更多样化的传感器,并与具身智能技术相结合,以实现与物理世界的更直接互动。若能实现这些目标,人工智能的发展将前进一大步,为社会带来更深远的影响。

总体而言,人工智能作为一种强大的生产驱动力,为社会经济发展带来了深远的影响。人工通用智能(AGI)的实现有望进一步拓展市场空间,为各行各业提供更多可能性。我们期待与各位携手合作,在即将到来的时代中,通过共同努力,创造更多的价值。

谢谢大家!

阅读


END

亿欧网
科技与产业创新服务平台
 最新文章