AI Agent 创新突破！从「耍嘴皮」到「看得见」，还能「动手干」

科技 2024-12-31 15:01 北京

不止有基础大模型，还有基础智能体。从只能语音对话的「Promt Agent」，进化为「能看见、有记忆、有技能」的「Foundation Agent」。

当我们探讨 Agent 时，究竟在谈论什么？是在谈论其智能化的深度，还是其应用的广度？是在谈论其技术的先进性，还是其实用的广泛性？Agent 有哪些核心要素需要具备？又有哪些困难需要突破？解锁这些重要命题，依然是业内探索的目标。

在极客公园 IF2025 创新大会上，荣获 Innoforce50「年度技术突破」的无界方舟团队提出了「个人基础智能体」（Personal Foundation agent）的概念，为 AI Agent 的发展带来了全新视角和深刻启示。

迈向个人使用的基础智能体

（Personal Foundation agent）

2024 年被业界视为 AI 应用的爆发之年，而即将到来的 2025 年则被广泛视为 AI Agent 的爆发之年。上周，谷歌正式发布了其最新版大模型 Gemini 2.0 系列，并宣称这是他们迄今为止最强大的人工智能模型，「专为 Agent 时代设计」。随着 AI 技术的飞速发展，如何将「智能体」作为打破人机局限的核心驱动力，已成为业界热议的焦点。从最初的 AlphaGo，到如今的大语言模型，再到垂直领域的专业智能体，AI Agent 的功能和应用范围正以前所未有的速度扩展。随着 AI 技术逐渐渗透用户生活的方方面面，智能体不再只是完成单点任务的工具，更是成为主动理解用户、满足个性化需求的核心伙伴。

无界方舟（AutoArk）致力于多模态大模型技术的创新与应用，是国内首个实现 400ms 超低延迟「视觉理解」模型的服务商，已在 2024 年上半年开放模型对外合作，在多个 AI 硬件产品上实现应用。

无界方舟在极客公园 IF2025 展会现场的实拍录像｜视频来源：无界方舟

基于此模型，无界方舟推出了全球首款个人基础智能体（Personal Foundation Agent）——Arki One。该智能体在交互、记忆和技能三个维度上实现了关键突破：

交互层：如何实现低延迟、具备视觉理解能力、高情感互动的实时反馈？Arki One 采用了先进的跨模态融合与推理技术，实现了音视频互动的超低延迟（低于 400 毫秒），并支持用户随时通过语音打断。此外，Arki One 拥有完善的情绪系统，并支持 21 种语言的互动，能够在百毫秒级别驱动虚拟数字人和智能硬件的动作。
记忆层：如何构建用户个性化、终身化的记忆系统？Arki One 配备了独创的终身记忆系统，该系统结合结构化知识图谱和参数化记忆模型，使 Arki One 能够在复杂环境中不断学习和积累知识，从而为每位用户提供个性化的 AI 定制服务。通过与用户的交互、规划、行动和反馈，Arki One 能够进行反思，逐步构建对用户及世界的深入认知。
技能层：如何在虚拟与物理环境中具备鲁棒的执行能力？Arki One 搭载了自主研发的 Action Q 技术，能够通过自我监督的强化学习在多变的环境中快速掌握新技能，显著提升了 AI 的推理和执行能力。无论是在虚拟世界还是物理世界中，Arki One 都能将 AI 转化为真正的生产力。对于高度复杂的任务，Arki One 能够创建一组由专家级 AI Agent 组成的「AI 团队」，通过智能体之间的协作来解决复杂难题。

个人基础智能体三要素｜图片来源：无界方舟

突破维度 1：端到端多模态

基础大模型，实现超拟人交互

在 AI 技术日新月异的今天，多模态技术正以前所未有的速度发展，并逐渐成为行业焦点。与传统的单模态模型（仅处理文本、图像）相比，多模态模型能够整合文本、图像、音频等多种信息形式，实现更智能、更拟人化的交互体验。

近年来，多模态技术的发展呈现以下趋势：1）端到端多模态模型崭露头角： 以 OpenAI 推出的 GPT-4o 为代表的端到端多模态模型，在多模态理解和生成方面取得了重大突破，实现了图像、语音和文本的多模态整合，并在通用助手、医疗辅助、教育等领域得到了广泛应用。2）实时性和低延迟需求日益凸显： 随着用户对人机交互实时性要求的不断提高，尤其是在语音和视觉理解对话场景中，技术发展正朝着「毫秒级响应」迈进。3）多模态情绪感知成为关键挑战： 在拟人化交互中，情绪理解和动态响应成为核心技术挑战，涉及语音情绪分析、视觉表情识别和语境推理等多模态信息的融合。

在此背景下，无界方舟潜心研发，在业界没有任何现成方案可套壳的情况下，自研推出了全新的端到端多模态模型，致力于突破技术瓶颈，引领多模态交互体验升级。以下为该模型的技术创新点：

超低延迟「视觉理解+语音」交互：实现低于 400 毫秒的超低延迟响应，满足实时对话需求，该成绩是在「视觉理解+语音」同时进行的情况下。单是纯语音互动，延迟可低至 300 毫秒。该模型在多项多模态测试中表现优异，超越 GPT-4o 的水平。
端到端多模态融合与推理：采用统一的特征表示框架，结合音频、图像和文本编码器，将多模态输入映射到共享的语义空间，实现跨模态信息的有效融合。
领先的情绪感知系统：内置 AI 情绪系统，支持 48 种动态情绪识别与反馈，显著提升用户体验的沉浸感、自然感，有效提升 Agent 拟人度。
卓越的多语言对话能力：具备多语言能力，可支持全球化出海业务。目前已实现 21 种语言的互动，包含英语、德语、日语、法语、西班牙语、韩语和阿拉伯语等。
具身智能驱动能力：可驱动 3D 虚拟形象与智能硬件设备，实现拟人化的具身智能交互，在虚拟助理、机器人交互等领域展现出巨大的商业化潜力。

无界方舟多模态大模型架构与评测结果｜图片来源：无界方舟

无界方舟 CEO 曾晓东表示，无界方舟正积极寻求与行业优秀伙伴的合作机会，在更多实际应用场景中，融入并发挥个人基础智能体的优势。

无界方舟个人基础智能体 Arki one 的应用场景拓展，已开放对外合作｜图片来源：极客公园

突破维度 2：终身记忆系统，

实现用户个性化 AI

根据 Gartner 的研究预测，到 2025 年，超过 40% 的企业将部署具备终身学习能力的智能系统，以显著提升客户体验和运营效率。尽管传统大语言模型通过整合人类常识，突破了仅能处理单一问题的局限，展现出理解和解决高度个性化长尾问题的能力，但其要求用户在每次交互中提供详尽背景信息的模式并不切合实际。因此，构建一个具备终身记忆能力的系统显得尤为重要，它能够帮助模型积累对问题和用户的深度理解。

无界方舟个性化记忆系统 AutoMind｜图片来源：无界方舟

无界方舟的个人基础智能体配备一套先进的「终身记忆系统-AutoMind」，一个独立于基础模型的个性化记忆层。通过反思用户交互、规划、行动与反馈，逐步累积对用户和环境的深层次认知。该系统巧妙结合存储型记忆与参数化记忆，构建出层次化记忆模型，具备终身学习能力，显著提升了智能体在复杂环境和数据处理方面的表现。凭借 AutoMind，基础智能体能够识别用户的长期爱好、体检情况变化、连续对话中的未完成任务等，甚至根据用户的沟通习惯调整对话风格。通过动态学习用户行为和历史数据，能够提供更精准的推荐和更高效的解决方案，营造出接近人类交互的体验。

AutoMind 个性化记忆层｜图片来源：无界方舟

为实现这一终身记忆系统，无界方舟在存储型记忆、参数化记忆两大主流技术方向上进行了深入布局和积累。

存储型记忆：结合知识图谱和图机器学习技术，构建了层次化记忆模型，显著提升了大型语言模型（LLM）在复杂数据处理中的表现力。通过构建结构化的知识图谱，基础智能体能够将孤立的信息转化为相互关联的实体网络，真实还原现实世界中的复杂语义关系。根据无界方舟产品应用情况，知识图谱的引入可使 Agent 在事实推理任务中的准确率提升 35% 以上。同时，系统采用分层总结与动态更新机制，对新知识进行多层次、迭代性的总结和整合，持续丰富知识体系，实现终身学习。凭借存储型记忆模型，基础智能体不仅提升了生成内容的准确性和推理深度，还具备了持续优化与知识积累的能力，在科学研究、医疗诊断等高复杂性领域展现出巨大的应用价值。例如，在抗体设计的应用案例中，实现了在抗体从头设计、人源化打分等专业任务上平均 95%+的任务准确率。

AutoMind 存储型记忆架构｜图片来源：无界方舟

参数化记忆：无界方舟自主研发并开源的 PrivateLoRA 技术，在实现「记忆个性化参数模型」的同时，兼具「隐私安全保护」。PrivateLoRA 是全球首个支持端+云联合部署的大模型技术，可将部分大模型参数部署在端侧，用户输入的图文信息由端侧参数处理，而云端仅接收端侧参数的加密编码。这种端云协同的推理模式确保了用户数据的本地化，有效防止隐私泄露。根据测试，PrivateLoRA 可将隐私泄露风险降低 99% 以上。此外，PrivateLoRA 的端侧参数充当参数化记忆的载体，支持实现提示词工程难以企及的风格化回答和概念植入等深层次定制。凭借 PrivateLoRA 技术，用户在享受终身记忆带来的便利时，也无需担心隐私泄露的风险。

AutoMind 参数化记忆架构｜图片来源：无界方舟

突破维度 3：

复杂推理+执行能力，不止陪伴，更是伙伴

无界方舟的个人基础智能体不仅致力于成为用户的聊天伴侣，更力求通过掌握多种 Agent Skill（智能体技能），在日常生活和专业工作中成为用户得力的助手。凭借自主研发的 Action Q 技术，该智能体能够通过自我监督的强化学习，在多样化环境中不断学习和掌握新技能，执行从虚拟世界到物理世界的任务，真正将 AI 转化为强大的助手。

Action Q，学习虚拟世界与现实世界的技能｜图片来源：无界方舟

让 Agent 掌握执行任务的能力，本质上是让 Agent 学习编写该技能的代码。这一过程涉及广泛的探索和试错，无论是在操作网页、玩游戏，还是在驱动具身智能硬件，Agent 都能够找到正确的解决方案。通过结合强化学习（Reinforcement Learning, RL）和蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）等技术，从而实现了一种自我监督的学习机制，使 Agent 能够在专业领域中适应和优化。具体而言，仅需不到 100 个样本进行冷启动，引导初始学习过程，随后 Agent 将在该领域的任务空间中自主探索，自动收集反馈并进行强化微调，最终实现远超通用大模型的专业性能。

Action Q，一种让 Agent 学各种「技能」的通用方法｜图片来源：无界方舟

此外，面对高复杂度的技术挑战，无界方舟的基础智能体能够调用并协同一批虚拟 AI 专家智能体，构建高效协作的 AI 团队。通过智能体之间的紧密配合，该系统能够有效攻克复杂任务。凭借此项创新技术，无界方舟已成功构建全球首个基于多智能体系统的抗体研发平台，大幅降低抗体研发成本高达 90%，为生物医药行业的高质量发展提供坚实的技术支撑。

无界方舟多专家智能体产品 AgentStudio ｜图片来源：无界方舟

随着 2025 年的临近，AI Agent 正逐渐揭开商业爆发元年的神秘面纱。在这个时代里，智能体不再仅仅是简单的工具，更成为了能够主动理解用户需求、满足个性化需求的伙伴。

面对个人用户，无界方舟（AutoArk）提供的「个人基础智能体」，实现了超低延迟「视觉理解+语音互动」，使 AI 真正成为理解和融入用户生活的伙伴。

面对专业垂直领域，无界方舟（AutoArk）提供的「企业专家智能体」也在积极助力医药、金融等行业降本增效，重塑企业内外部的互动方式，赋予千行百业新的生存和发展空间。

在无界方舟的眼中，2024 年的「技术突破」只是一个起点。正如爱因斯坦所说：「想象力比知识更重要。」随着 AI 技术的不断进步和完善，AI Agent 将成为人类生活中不可或缺的伙伴。无论是在生命科学、教育学习、金融分析还是日常生活方面，AI Agent 都将扮演越来越重要的角色，开启更加智能、便捷且富有创造力的新时代。

曾晓东在极客公园 2025IF 创新大会的演讲实录，点击查看「2025 年，AI Agent 将如何变革？」

极客公园 2024 年度创新力量榜单，点击查看极客公园 2024 年度「InnoForce 50」。

*头图来源：极客公园

热点视频

马斯克：永远不要信愤世嫉俗的人，他们看谁都是坏人。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

极客公园

用极客视角，追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号👇

最新文章

用 GPT 总结 2024 年的人，全破防了

微信测试「语音信息倍速播放」； BBC 怒斥苹果 AI 通知摘要频频出错；谷歌 AI 科学家自杀离世｜极客早知道

造车的理想要「All in AI」，这事靠谱吗？

特斯拉 2024 年交付数据公布，年销量首次下滑；蜜雪冰城递表港交所；诺奖得主支持马斯克起诉 OpenAI | 极客早知道

具身智能需要什么？一场学术年会的讨论给出了一些思考

每一个孤独的坚持，都是改变世界的能量

特朗普酒店外一辆Cybertruck爆炸，马斯克回应；鱿鱼游戏2首周观看打破奈飞记录；百度25周年李彦宏发全员信 | 极客早知道

张鹏对谈汪华、袁进辉、胡修涵：2025 年，匍匐也要前进，活下来最重要

雷军：小米汽车新年目标 30 万台；Altman 确定 GPT 将有「成人模式」；字节否认砸 70 亿美元买芯片 | 极客早知道

真没想到，AI 夸得我有点不好意思，还能陪我过日子？

大模型时代，没有超级应用，只有超级智能，为什么？

AI Agent 创新突破！从「耍嘴皮」到「看得见」，还能「动手干」

美团外卖推防疲劳，12小时强制下线；苹果 iOS 18 视觉增强默认启用，隐私堪忧；小米宠物员工狗走失，公司急寻 | 极客早知道

我们试了市面上八款视频模型，发现 Sora 确实不太行了

瞄准家庭具身，云鲸开始提速

雷军 31 日进行「跨年直播」；华为：能活下来因为国民热情；「拳皇」30 周年，SNK 成立独立 KOF 工作室 | 极客早知道

本想偷懒才用的 AI，没想到 AI 摸起鱼比我还厉害？！

小米汽车交付超 13 万，雷军：创造奇迹；华为问界 M8 实车曝光；传 iPhone17 标准版终于支持高刷｜极客早知道

重塑人机边界，Soul 正在迈向 AI 社交的未来？

OpenAI 盈利实体变「盈利公司」；智能手表表带含「永久化学物质」；美公司推「神药」延长狗狗一年寿命 | 极客早知道

亲测！豆包+PC，解锁生产力「神器」

脑机接口和 AI，一个硬币的两面

这个「能飞」的机器人，悄悄走进人们的生活

传小米搭 GPU 万卡集群，大力投入 AI；董明珠：年轻人躺平，因为家长太溺爱；微软、OpenAI 再起争执 | 极客早知道

李继刚：当我们说「提示词」时，到底在说什么？

李想：有了冰箱彩电大沙发，还想用 AI 造「硅基家人」

2024 年末决战，AI 视频「卷麻了」

李想：理想汽车大模型进入手机市场；吴柳芳被禁言，抖音：根据法规要求；三星 XR 头显产品或叫「Switch」 | 极客早知道

怒喵李楠的「百镜大战」大实话：别骗自己有技术，抓紧兑现风口

AI 是如何利用语言技巧「操纵」人类的？

AI 的「i」，原来是斜杠青年的「金箍棒」！

OpenAI 或考虑开发人形机器人；小米辟谣「年底大裁员」：缺乏基本常识；宁德时代发「智能底盘」，阿维塔首搭｜极客早知道

相机公司瞄上了线上会议这块大蛋糕

2025 年，AI Agent 将如何变革？

传播学者对谈科普博主：算法造不了网红

传罗永浩转战 AI 硬件，产品「不便宜」；滴滴正式发文治理「冬天臭车」；Meta AI 眼镜将加屏幕 | 极客早知道

从 OpenAI 12 天发布会里，我们看到了行业的四个关键问题

影石刘靖康：在「AI 硬件」的战场上，大 Boss 是手机厂商，不是互联网公司

传苹果研发「智能门铃」；美总统赞成 TikTok 继续运营；汤姆猫推 AI 陪伴机器人，1499 元 | 极客早知道

AI，如何真正助力商家？

短剧出海的秘密：ReeIShort 如何让外国人爱上「霸总」？

传 GPT-5 开发不顺；蔚来第三品牌新车首秀，预售价 14.88 万元；广电总局要求加强微短剧片名审核 | 极客早知道

看看产业里 AI 应用的进展吧，它治愈了我的 AI 价值焦虑

未来十年，谁将主宰科技巅峰？

OpenAI 发布高级推理模型 o3；传雷军亲自重金招募大模型领军人才非事实；小米 YU7 无伪装实车曝光 | 极客早知道

冲刺年底 KPI，车企的心眼子都用在「免息」上了

张一鸣，终于来了

内容创作的「Windows 时代」来了

999 元的 AI 眼镜来了，闪极拉开「百镜大战」序幕

苹果就 AI 与腾讯字节谈判；百度、吉利垫付，极越员工获「N+1」赔偿；余承东称智界要打造年轻人 DreamCar｜极客早知道

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉