从传统的 AI Agent,迈向个人基础智能体 Personal Foundation Agent。
整理 | 连冉 编辑 | 靖宇
2024 年被业界视作 AI 应用之年,在即将到来的 2025 年,Agent 则被广泛看好。上周,谷歌正式发布其最新版大模型 Gemini 2.0 系列,并表示这是他们迄今为止最强大的人工智能模型,「专为 Agent 时代设计」。如何将「智能体」作为打破传统人机互动局限的核心驱动,成为业界热议的核心问题。在极客公园 IF2025 创新大会上,无界方舟(AutoArk)创始人兼 CEO 曾晓东在《除了找 AI 做「情侣」,AI 还能做什么?》主题演讲中,深入探讨了 AI Agent 的未来发展方向,尤其是如何通过基础智能体(Foundation Agent)推动 AI 从单一任务助手向个性化、情感化的智能伙伴迈进。从最初的 AlphaGo 到如今的大型语言模型,再到垂直领域的专业化智能体,AI Agent 的功能和应用范围正在迅速扩展。然而,随着 AI 技术进入个人生活领域,智能体不再仅仅是完成任务的工具,也越来越成为理解用户情感、满足个性化需求的核心伙伴。在交互、记忆和技能等关键领域,如何实现低延迟、带视觉理解、高情感互动的实时反馈,如何构建个性化的记忆系统,如何在虚拟与物理环境都具备鲁棒的执行能力,成为智能体进化的重要挑战。曾晓东介绍的「个人基础智能体」概念,正是基于此背景而提出。他强调个人领域的 AI Agent 不仅是解决单点问题的助手,更是用户的长期伙伴,个性化满足生产力和情感陪伴的需求,使 AI 能够真正理解和融入用户的生活与工作。同时,曾晓东指出,个人领域的 AI Agent,将不止存在于现有的手机、电脑,还会存在于越来越多的新型硬件终端。所以,无界方舟的探索不仅涵盖了技术方面的突破,也孵化了基于自研技术优势的硬件产品,将于明年发布的智能机器人「阿奇」,也是这一理念的体现。在这一全新的 AI 智能体蓝图下,曾晓东和无界方舟团队的技术探索正加速落地,未来的 AI 产品或许将成为每个人生活中不可或缺的个性化伙伴,进一步推动人机交互迈向更高的智能化、情感化层次。在曾晓东眼中,无界方舟的专业领域智能体方案,也将为企业级市场带来前所未有的机遇。AI Agent 可谓应运而生,通过与行业专家的互动逐渐学习和优化,从而为企业业务流程的数智化转型铺平道路。新的一年即将到来,AI 产业的下一个阶段也将拉开序幕。预计到 2025 年,AI Agent 的应用市场将达到数百亿美元规模,2025 年有望成为 AI Agent 商业爆发元年。以下为曾晓东在极客公园 IF2025 创新大会的演讲实录,由极客公园整理。
基础智能体三要素:交互、记忆、技能 个人基础智能体的背后有三个基础能力,我们要把它做到高水位,这样个人化应用的落地才会变得更加快捷。个人基础智能体三要素|图片来源:无界方舟第一个维度是交互,不只是文本的交互,还包括语音、视觉理解的实时交互。第二个维度是记忆,个性化的记忆,基础模型之外的记忆系统应该如何去搭建。第三个维度是技能,也就是 AI Agent 的执行能力。如果我们把这三个要素画在同一个坐标系中,我们刚才所看到的不管是 AlphaGo 、Prompt Agent,还是专家型的 Agent,它们都处于坐标系的左下角,而我们的目标是要做一个位于坐标系右上角的个人基础智能体,难度极高。我们在过去两年多的时间,在每个维度都取得了一些阶段性成果。接下来我会一一为大家介绍。我们先看交互这个维度。在做一款个人 AI 应用时,不管是软件类的,还是硬件类的,在许多场景,需要的不仅仅是 LLM 纯文本交互能力,而是拟人且实时的语音、视觉理解互动能力,也就是下图中间部分的交互能力。传统方法一般是用「三段式」的串行链路来实现音视频交互,也就是先接一个语音识别 ASR、再接一个大模型 LLM、最后衔接一个语音合成服务 TTS,但这种方式有三个致命问题:1)延迟很高;2)交互僵硬;3)没有情绪。传统语音 Agent 交互链路|图片来源:无界方舟我们举几个常见的 Case,比如市面上的各种语音互动玩具,它的反馈延迟大概是 6 秒,这是用传统的「三段式」链路通常会遇到的问题。它的交互不是开放式的,不能随时通过语音打断,许多产品都需要按住物理按钮才能对话,这些都导致了产品体验不佳,退货率极高。除了「三段式」链路,还有一种方式——端智能,为了降低交互的延迟,把模型压缩部署到端侧。但它会有两个很严重的问题:一是耗电,哪怕把模型压缩到 2B 或者 0.5B,对话几轮就会掉一格电,显然无法满足商业需求;二是偏小的模型,它的智力水平会下降非常多。虽然端侧模型是一个很好的方向,但短时间之内如果要做商业化产品,这并不是一个很好的选择。那么,Agent 的交互能力到底需要达到什么水平呢?我们需要的是完全开放式的、延迟非常低、带视觉理解能力、情绪表达很丰满、可以驱动软硬件载体的 AI Agent。个人 Agent 的交互能力需求|图片来源:无界方舟由于市面上没有现成模型能够直接套用,我们自研摸索出一套理想的解决方案。第一,它是云端的,还是比较大的模型,但这个模型一定是端到端、多模态的模型,这样它的延迟才会降到很低,情绪也会非常饱满,容易控制。无界方舟自研探索出来的理想解决方案|图片来源:无界方舟第二,我们需要一条传输链路 WebRTC,相当于我跟 AI 做视频聊天,视频流、音频流会不断往云上传输。这里最难的是模型,本质上多模态的端到端模型,它的算法架构不会很难,难点在于它的数据来源。因为需要用音频到音频、音频图片到音频的数据,如果找人打标或做录制,成本会非常高,所以我们前期花了很多功夫在合成数据上。无界方舟多模态基础模型架构|图片来源:无界方舟通过以下视频,我们可以看到目前模型的效果。在实时音视频下,可做到 400 毫秒极低延迟反馈,展现出较高的智商、情商,有丰富的情绪表达,有 21 种多语言能力,可驱动虚拟形象和硬件的动作。无界方舟在极客公园 IF2025 展会现场的实拍录像|视频来源:无界方舟
我们认为应用多模态、端到端的模型,是做好 AI 实时交互的必经之路。除了刚才介绍的特性以外,还有更多延展性。这是我们目前正在做的两个探索型项目,对齐的是其他模态。比如左手边这个对齐的是宠物语言,当然不是真正的宠物语言,是训练师对狗狗叫声的理解;右侧是我们跟脑机接口的厂商正在做的探索项目,目前有一些初步的结果,脑信号可以跟文字进行 Alignment。无界方舟多模态基础模型的潜在扩展性|图片来源:无界方舟我们再来看个人基础智能体的第二个维度,个性化记忆。传统大模型的记忆是比较简单的,或者是用简单的向量数据库把上下文储存下来。我们认为 AI 与人的很多交互片段需要一个完整的记忆系统去构建,业界目前正在往这块做深耕,有很多记忆型的产品。对我们来说,我们希望去构建一个单独的记忆层——AutoMind。在这个记忆层里,我们分两种格式记录记忆,其中一种是存储型的,比如用知识图谱、参数化记忆。AutoMind 个性化记忆系统|图片来源:无界方舟这个产品界面,展示了我同事过去三个月跟 AI 互动的所有信息和记忆片段。这个模型会为每个用户构建 AutoMind 记忆系统,结合我们的大模型,它的回答会高度个性化。在我们开源的工作中,我们甚至可以将记忆系统放在端侧,这样它可以实现完全的隐私保护。AutoMind 个性化记忆层|图片来源:无界方舟第三个是整个 Personal Foundation Agent 中最难的维度,Agent 的技能。我们尝试去找到一条路径,可以让 Agent 在少量的样本数据或事例中,学会虚拟操作或硬件操作的技能。Agent Q,学习虚拟世界与现实世界的技能|图片来源:无界方舟我们最近有一份工作成果很快就会开源,叫作 Action Q。我们本质上是希望让 Agent 学会写一段代码,这个代码是跟技能相关的,会有很多路径的探索、试错,不管是操作网页、玩游戏,还是具身智能的硬件驱动,它都可以学会正确的路径。Action Q,一种让 Agent 学各种「技能」的通用方法|图片来源:无界方舟
03
基础智能体的产品与应用 我们目前距达成个人基础智能体(Personal Foundation Agent)还有一段路要走。在未来,我们除了持续深耕交互、记忆、技能这三个维度的技术能力外,还会孵化一系列搭载个人基础智能体的新型硬件产品,牵引个人基础智能体技术的应用迭代。无界方舟通过硬件「阿奇」展示其卓越的自研模型能力|图片来源:极客公园这里我想特别介绍一款硬件产品,它叫「阿奇(Arki)」,非常可爱。它有两种 AI Agent 形态,一种是通过手机 App 直接体验,我可以让它帮我解决工作、生活上的问题;另一种是把手机放到底座上,它就会变成一个具象的机器人,可以有各种硬件动作的交互。目前「阿奇」还没有量产上架,我们通过它向大家展示我们自研的模型技术能力。此外,我们也正积极寻求与行业优秀伙伴的合作机会,在更多实际应用场景中,融入并发挥我们个人基础智能体的优势。个人基础智能体的应用场景拓展|图片来源:无界方舟最后,我想表达的是,随着 AI 技术不断融入我们的生活,智能体的角色正在发生深刻的变化。它们不再只是冷冰冰的任务执行者,而是逐渐成为能够理解我们情感、提供个性化服务的温暖伙伴。「个人基础智能体」这个概念,正是基于这样的背景而诞生的。它强调 AI 不仅要解决实际问题,更要通过陪伴提供情绪价值,使 AI 真正成为理解和融入用户生活的伙伴。无论是我们将在明年推出的智能机器人「阿奇」系列,还是与合作伙伴们共同孵化的产品,都是在践行这一理念。与之对应的,「企业专家智能体」也不再是一个遥不可及的概念,而是一个正在被积极应用的技术解决方案。AI Agent 助力医药、医疗、金融等专业领域降本增效,重塑企业内外部的互动方式,赋予千行百业新的生存和发展空间。曾晓东在极客公园 IF2025 创新大会|图片来源:极客公园随着技术的不断进步和应用的持续深化,我们期待着 AI 迈向更高的智能化、情感化层次,这也将为商业领域带来前所未有的机遇和挑战。我们有理由相信,AI Agent 的市场规模将在 2025 年后迅速增长,引领我们进入一个更加智能、人性化的商业新时代。 *头图来源:极客公园本文为极客公园原创文章,转载请联系极客君微信 geekparkGO 极客一问你认为个人基础智能体,