智谱强势出圈,AI Agent机会在哪?

文摘   2024-12-14 12:42   天津  


官方交流社群

添加微信:Buddha_Research

(备注信息:公众号读者)


互联网分析师周良久分享AI agent投资机会

互联网分析师周良久感谢投资人参加AI agent专题分享,强调了当前重视AI agent和AI应用板块投资机会的重要性。分享内容包括AI agent的投资理由、AI产业专家演示auto GM功能、团队成员郭娜分享AIA检深度报告以及投资标的梳理,旨在重新审视和梳理对AI领域的观点。

重视AI应用及agent板块投资机会

在最近的一段时间内,多个科技巨头如苹果、智浦AI、微软等宣布推出或升级AI应用和agent,预示着AI领域的活跃与发展。这些动态不仅包括新技术的发布,还涉及与头部手机厂商的战略合作,预示着AI技术在手机等终端设备上的广泛应用前景。此外,AI大模型在国内的发展在今年呈现出一种蛰伏状态,主要由于海外模型进展低于预期、国内模型追赶缓慢及全球应用层面未出现爆款应用等因素。但随着AI agent等方向的落地,预示着AI领域将迎来新的投资热点。鉴于此,当前投资领域中AI应用及agent板块值得重点关注。

详解奥特GLM的AI应用与工作流程

专家介绍了当前对AI代理领域的重视原因,并详细讲解了奥特GLM的工作机制。从语音命令转换为文本开始,经过视觉信息和任务分解,到执行任务并反馈结果,展示了AI如何高效完成多语言环境下的复杂任务。同时强调了AI代理通过不断学习与反思,提升交互性能和适应用户偏好的重要性。

ODDM模型的内部结构与优势

ODDM模型通过升级的Cook VM架构和强大的高分辨率视觉输入处理能力显著提升了AI agent的识别和操作GUI的能力。它基于GUI的视觉信息训练,减少了对底层编程代码的依赖,但存在输出坐标不精确、图像多张处理能力弱、对特定元素依赖和计算开销大的局限。尽管如此,其双流架构创新提高了神经网络处理高分辨率信息的效率,但在实时性能和用户交互上仍需优化。

深入解析OTGM技术原理与应用

讨论了OTGM技术如何实现直接打开APP及特定页面,无需额外授权,主要应用于固定任务,如信息发送、公众号文章总结。同时也介绍了OTGM技术中模拟点击操作的实现方法,以及在实际应用中遇到的限制和挑战。通过具体案例展示了OTGM技术的演示过程和用户体验,讨论了技术的未来发展方向和可能的应用场景。

AI Agent的定义与产业链机会

讨论了AI agent的定义、特性及其与传统AI应用的区别,强调了大模型时代下AI agent的重要进展,包括自主性、学习迭代和目标实现能力的增强。报告指出,AI agent能够借助大模型、规划能力和记忆,提供新的技术和产业路径,特别强调了大模型在AI agent发展中的关键作用和存在的问题,如幻觉和记忆问题。此外,报告讨论了AI agent的两大类:自主智能体和被期待的产业链机会,以及如何通过外部技术解决大模型的短板,从而提高实用性。

行业对自主智能体系的探索与应用

过去两年内,行业内对自主智能体系进行了广泛探索,分为实验性与实操性,单智能体与多智能体类型。实验性方面,如Auto-GPT展现了单智能体的潜力,但遇到实操中的问题。实操性应用,如ChatV和AIGle AI的个人助理,展示了智能代理技术的发展方向。大公司如亚马逊通过技术授权加速了智能代理的构建。多智能体系统的探索,如Meta-GPT,展示了在软件开发和游戏制作等复杂任务中的潜在优势。尽管大模型在底层幻觉问题上仍有不足,但随着技术进步,自主智能体系在游戏开发、影视制作等生产力方向的应用前景广阔。

智能整体模拟:情感陪伴与交互发展

智能整体模拟在AI时代被视为一种新的精神消费品,主要分为情感陪伴类和强调交互的智能体两类。情感陪伴类智能体强调情商和情感特征,能记录用户交互历史,切入情绪消费市场。交互类智能体则强调与环境的互动能力,大模型的使用可能带来更开放、自主的游戏角色体验。自主智能体对准确度和效率要求高,对生产力有推动作用。情感陪伴类智能体更注重情感陪伴和创造性工作。整体趋势是两类智能体的融合,提升AI实用性。

行业进展与投资建议:关注AI应用及算力标的

讨论了自动化和语言处理领域的最新产业进展,强调了大型科技公司在此领域的探索和动作对行业的影响。预计行业进展将加速,重点关注AI应用和算力板块。短期投资建议聚焦于与Al相联系的标的,如华策影视、豆神教育等;长期则看好AI应用落地的潜力,推荐昆仑万维、焦点科技等,同时强调游戏板块的估值优势和AI应用的前景。此外,算力方面推荐中继旭创、天孚通信等。

Q&A

问:接下来会如何安排分享内容?

答:接下来将把时间交给专家,由专家来演示auto GM的一些功能,并详细分享其核心原理,这部分预计将持续约25分钟。

问:为什么在这个时点要重视AI agent和AI应用板块的投资机会?AI agent在A股投资领域的表现如何?

答:我们重视AI agent和AI应用板块投资机会的原因主要有两点。首先,在过去一两周及未来的一两周内,有很多与AIA建相关的重大事件发生,例如苹果的apple intelligence功能即将在10月28号正式上线,智浦AI的自主智能体auto GLM作为助手已经推出,并与手机终端厂商展开深度合作。其次,从市场角度看,AI仍然是当前A股最重要的方向之一,尽管之前国内大模型和应用处于蛰伏状态,但随着苹果、三星等头部厂商在AI agent方向的落地,以及开源模型能力的提升,AI agent有望迎来快速推广和应用,改变终端厂商和模型厂商的竞争格局。在A股当前阶段的投资上,虽然AI agent的应用在过去相对平淡,但随着苹果、三星和华为等头部厂商的相继落地,尤其是终端厂商与模型厂商的合作,使得AI agent有望带来一波更快的推广和应用,从而影响整个行业的竞争格局。鉴于此,我们认为AI agent是现阶段非常重要的科技投资方向,具有补涨潜力和爆发逻辑。

问:AI agent在最近有哪些重要进展或合作?

答:最近的重要进展包括苹果、三星与中国头部手机厂商的合作,以及微软发布的十个多功能agent应用于生产力工具。此外,智浦AI的auto GLM不仅可以帮助用户在手机和PC上完成各种操作,还与华为等公司达成了战略合作。同时,Tropic Cloud 3.5的升级也带来了全新功能,支持计算机像人类一样遵循命令进行交互操作。

问:AI是如何工作的,能否简要概述其基本工作流程?

答:AI工作基于一个具备学习能力的agent,它通过与环境交互不断积累有价值的知识和经

验。AI通常分为三步:第一步是目标初始化与规划,由人工定义目标和环境;第二步是利用工具进行推理,在内部知识库不足时调用外部信息以更新知识库,并执行任务;第三步是学习和反思,通过反馈机制提高响应准确性,存储交互记忆以优化未来行动计划。

问:澳洲GLM的工作流程是怎样的?

答:澳洲GLM的工作流程大致为:用户通过语音命令发出指令,经语音模型转成文字并提交至VIM(一个支持世界语言的大模型)。VIM分解任务后生成子任务并按照顺序执行,手机端根据获取的工具动作和上下文信息执行子任务,并在任务完成与否的判断下循环执行直至任务完成或用户取消任务。

问:OTGM在语言与视觉理解方面有何特点?

答:OTGM具有同时理解语言和视觉信息的能力,能生成目标APP、动作和坐标,提供给下游手机执行智能。其原型来自专门用于GUI理解和操作的大模型——code agent,能精准识别界面元素并与信息对话。

问:ODDM内部结构及其优势是什么?

答:ODDM的独特之处在于cos VI模块,相比之前的架构有显著升级,提高了处理高分辨率视觉输入的能力,计算成本降低且对GUI支持更优。此外,该模型大量使用GOI视觉信息训练,减少了对底层编程代码的依赖。

问:OSGM目前存在哪些局限性和问题?

答:OSGM的局限性包括输出坐标的不精确性,在处理高分辨率图像时可能出现问题;对特定GUI元素识别依赖训练数据,面对小众或变化环境可能无法准确识别;实时性能不稳定,存在延迟和错误识别情况;同时,在适应分辨率变化等方面仍有待迭代改进。此外,在用户交互上,特别是在某些任务上的表现还需提升。

问:OTGM中的高分辨率交通模块采用了怎样的架构设计?

答:OTGM的高分辨率交通模块采用了双流架构,区别于传统的大模型架构,它将高分辨率和低分辨率处理分离为不同的神经网络架构。这样可以根据图片分辨率自动将其分配至相应分支进行处理,显著提升了整体存储效率。

问:高分辨率模块在设计上有何特别之处以提高效率和降低成本?

答:高分辨率模块减少了隐藏层大小,并尽可能削减不必要的参数,从而实现了更好的计算速度和更低的成本。这种针对高分辨率信息优化的设计是我们的创新点,区别于市面上其他大型模型。

问:如何实现仅通过Android Intel技术不依赖其他APP授权打开特定APP及功能?

答:我们利用Intel的技术,在安卓平台上无需额外APP授权即可直接打开其他APP及其特定页面和功能,只有涉及敏感数据的操作才可能需要授权,极大简化了操作流程。

问:OTGM如何模拟用户点击和滑动操作?

答:OTGM借助防障碍服务来模拟剪辑,通过调用代码实例,可以模拟真实用户点击或滑动屏幕的操作。例如,通过定义滑动路径,模拟出类似人工滑动的效果。

问:OTGM目前的应用场景和能力有哪些限制?

答:目前OTGM的能力尚有一定限制,无法做到完全放大规模化应用,主要适用于微信、淘宝、美团点评等固定场景中的相对固定任务,如发信息和公众号文章总结。此外,其功能仅限于通过无障碍服务接口执行任务,不会进一步利用获取的信息做其他事情。

问:GPT等大模型在AI产业中扮演了什么角色,但为何还需要外部力量补充?

答:以GPT为代表的大模型为AI age提供了一条新的可行的发展路径,展现了强大的自然语言理解能力。然而,这些模型在实际应用中仍存在幻觉问题、记忆力不足以及难以保持长期一致性和准确性的问题。因此,需要借助存储、检索和代码等功能的外部力量来构建能够真正应用于生产或生活的完整AI系统。

问:AI agent相较于大模型有何优势,并为何被认为是大模型的重要落地方向?自主智能体如何改变交互范式,以及准确度和效率的重要性是什么?

答:AI agent相较于大模型更具备实用性,能够弥补大模型的短板,具备更强的落地能力。我们将AIG分为自主智能体一类,这类智能体以自动化为核心,用户设定目标后可自行创建并完成任务,对产业意义重大,预示着新一轮生产力革命的到来。随着自主智能体能力的进化,它们可能会带来新的交互范式变化,从过去用户适应应用转变为应用适应用户,用户只需提出需求,智能体即可自动达成目标。准确度和执行效率对于用户体验至关重要,开发者需深入理解细分领域的用户需求并在工程细节上有精细打磨,以提升整体表现。

问:为何大厂对自主智能体方向如此重视,以及多智能体探索的原因是什么?

答:大厂如OKI及其拆分迭代方向,以及头部明星公司将其纳入麾下,显示出自主智能体是大模型重要落地方向。然而,在实际场景中发现单个AI助理在高端复杂任务中存在局限性,因此出现了多智能体的探索方向,例如Meta GPT等,这些多智能体框架在软件开发、游戏开发等领域表现出更强的通用性。

问:自主智能体的发展阶段可以类比于自动驾驶的哪些阶段?

答:自主智能体的发展阶段可以形象地类比为自动驾驶的不同阶段。其中,自主智能体可能对应L4级别的进阶阶段,大部分工作由AI完成,人类仅需设定目标、提供数据资源并进行监督,这相较于传统的DT(可能是笔误,应为“DT”)阶段有了显著提升。

问:行业内对自主智能体的主要探索方向有哪些?

答:近一年多来,行业内对自主智能体的探索主要分为四类:实验性(如auto GPT)和实操性应用(如chat GPT的迭代方向),以及单智能体和多智能体类型。例如,海外明星公司a2i.ai开发的个人助理应用被亚马逊收购,并将为其构建数字助理路线图提供支持。

问:AI agent在游戏开发和影视制作中将如何展示其提升作用?

答:随着大模型能力增强和框架设计日趋成熟,AI agent对于游戏开发、影视制作等偏向生产力方向的应用会带来明显的提升。例如,南方公园的AI动画项目就采用了类似框架,尽管当前底层幻觉问题仍存在不足,更适合中小开发者,但随着技术进步,其将在这些领域发挥更大价值。

问:智能整体模拟的主要定位是什么?它可能成为怎样的消费形式?

答:智能整体模拟的定位是拟人化,我们认为它可能是AI时代新的精神消费品。其中情感陪伴类智能体将突出情商、情感等人类特征,并记录与用户的交互历史,可能切入情绪消费市场。

问:在情感陪伴类智能体赛道中,有哪些具备较大商业价值的潜力玩家?

答:参考陪伴类赛道发展经验,具备丰富IP储备和平台型特征的玩家有望获得较大商业价值,如海外项目infection’s派被微软收购,国内有米兰、西湖新城和零星智能等团队。同时,网平台化娱乐化的项目如carrot AI glow也受到关注,其中carrot AI已被谷歌收购。

问:大模型幻觉在打造开放世界游戏中的作用是什么?

答:大模型幻觉在打造开放世界游戏中是一个优势,它可以赋予游戏角色更高的自主性和长期一致性学习能力,从而使得AI驱动的游戏环境探索更为真实和丰富。国内网易逆水寒手游已有相似尝试,随着技术成熟,该方向有望孵化出新的爆款产品。

问:自主智能体和情感陪伴类智能体在能力要求上有什么差异?未来发展方向是什么?

答:自主智能体强调准确度和效率,对生产力方向推动大;情感陪伴类智能体更注重情感陪伴和创造性工作。未来研发方向可能是将两者融合,使AI agent在适用范围和实用性上有大幅提升,同时几乎所有大模型公司都在研发相关功能模型。

问:AI agent作为重要应用方向,目前有哪些投资建议?

答:短期来看,建议关注与智谱相关的华策影视、豆神教育等标的,因其在国内领先性和与质谱的战略合作。长期来看,看好受益于AI应用落地的昆仑万维、焦点科技、万兴科技等,以及游戏板块中恺英、泰岳、巨人、完美等公司,叠加估值较低和游戏作为重要落地方向的潜力。此外,算力层面推荐中继、旭创、天孚通信和新易盛等。


光头君Schelling
注册会计师CPA、拥有律师资格、财务讲师、财经作家,前知名会计事务所会计师、企业管理咨询专家
 最新文章