研究员用AI模型简化XR内容生成，让角色在3D环境中实现逼真动作

文摘科技 2024-11-09 09:43 中国香港

自动生成

（映维网Nweon 2024年11月07日）人工智能系统在合成人类、动物和物体的图像和视频方面变得越来越好。人类角色参与特定活动的视频自动生成可能有各种有价值的应用，例如简化电影、VR和游戏的创作。

北京大学、北京通用人工智能研究院和北京邮电大学的研究人员开发了一种新的计算框架，可以为人类角色在3D环境中导航产生逼真的动作。

所提出的框架依赖于一个自回归扩散模型来合成连续的角色运动片段，以及一个调度程序来预测向下一组运动的过渡。

研究人员表示：“这项研究的灵感来自于观察人类与日常环境互动的轻松直观方式。无论是伸手去拿桌上的咖啡杯，还是在家具周围导航，我们的动作都是无缝的，不涉及有意识的计划。”

一系列用于生成人体运动的AI模型已证明可为虚拟人形角色生成可信的对象交互运动。然而，相关模型通常需要复杂的和用户定义的输入，比如预定义的路径点和阶段转换。

研究人员指出：“这种对用户自定义输入的依赖不仅复杂化了用户体验，而且阻碍了运动生成的自动化和流畅性。认识到所述限制，我们的主要目标是开发一个全面的框架，并简化这一过程。我们希望创建一个能够自动生成自然的、多阶段的、场景感知的人类运动的系统，只需要简单的文本指令和指定的目标位置即可。”

研究人员着手提高模型生成运动的一致性和真实感，同时最大限度地减少对复杂用户输入的需求。为了实现这一目标，他们编译了LINGO数据集。这是一个新的语言注释动捕数据集，可用于训练机器学习模型。

他们指出：“我们的框架旨在将简单的文本指令和目标位置转换为3D环境中逼真的多阶段人体运动。究其核心，系统集成了几个创新组件，它们和谐地工作以实现这一转变。”

框架的第一个组成是自动回归扩散模型，它可以生成连续的人体运动片段。这个过程反映了人类实时调整动作的过程，从而实现了从一个动作到下一个动作的平稳过渡。

研究人员指出：“基于我们早期的TRUMANS研究（利用体素网格进行场景表示），我们现在已经发展到双体素场景编码器。通过捕获当前的直接环境，并根据目标位置预测未来的空间，这种增强功能为系统提供了对环境的全面理解。”

所述框架的双重方法最终允许角色顺利导航3D环境，与物体交互并避开附近的障碍物。值得注意的是，框架同时包括一个嵌入框架的文本组件。

他们表示：“这个编码器将文本指令与时间信息集成在一起，这意味着它不仅知道要执行什么动作，而且知道何时执行。这种整合确保了生成的动作与文本中描述的预期动作精确地对齐，就像人类自然地按照完美的时间安排行动一样。”

从本质上讲，目标编码器处理角色的目标位置及其在途中完成的子目标，并将其划分为不同的交互阶段。这个步骤引导角色的动作以实现预期的目标。

团队进一步补充道：“与之互补的是我们的自动调度程序，它的功能是‘指挥者’。它可以智能地确定不同动作阶段之间的最佳过渡点，例如从步行到伸手或交互。这确保了整个运动序列无缝和自然流动，没有突然或不自然的过渡。”

这个新开发的框架与其他角色运动生成模型相比具有多个优点。最值得注意的是，它简化了用户需要提供给动作以生成连贯动作的信息，将其限制为基本的文本指令和角色应该到达的目标位置。

研究人员解释道：“通过整合场景感知和时间语义，我们系统产生的动作在语境上是合适的，在视觉上是令人信服的。另外，统一的管道熟练地处理复杂的动作序列，在多样化和混乱的环境中保持连续性并最大限度地减少意外碰撞。”

在初步测试中，框架表现得非常好，在有限的用户输入下产生了高质量和连贯的角色运动。生成的动作与用户提供的文本指令和虚拟角色正在导航的环境上下文保持一致。

他们说道：“这种校准通过各种指标进行了定量验证，与TRUMANS等现有方法相比，我们的方法显示出更高的精度，并显著减少了场景穿透的实例。所述进步强调了我们的框架在产生运动方面的有效性，不仅在视觉上令人信服，而且在背景和空间上都是准确的。”

这项最新研究的另一个重要贡献是引入了LINGO数据集。所述数据集包含超过16小时的动作序列，跨越120个独特的室内场景，并展示了40种不同类型的角色-场景交互。

团队指出：“LINGO数据集为训练和评估运动综合模型提供了坚实的基础，弥合了自然语言和运动数据之间的差距。通过提供详细的语言描述和运动数据，LINGO有助于更深入地了解人类语言，运动和环境相互作用之间的相互作用，从而支持和激励这一领域的未来研究。”

与之前引入的模型创建的角色动作相比，团队框架生成的动作更流畅、更自然。这在很大程度上是由于运动合成组件。

他们解释道说：“通过将运动、手触和人与物交互无缝地整合到一个管道中，我们的模型在运动序列中实现了一定程度的连贯性和流动性。这种整合不仅简化了动作生成过程，而且增强了虚拟角色在其环境中互动的整体真实感和可信度。”

团队指出，这个新框架存在各种各样的应用。首先，它可以简化并支持使用VR和AR技术生成沉浸式内容：“在AR/VR领域，我们的框架可以显著增强虚拟角色的真实感和沉浸感，从而改善用户体验。游戏和动画行业同样会从我们的系统中受益匪浅，因为它可以自动生成各种逼真的角色动画，减少所需的手工工作，增加游戏内动作的多样性。”

研究人员的框架同时可以用来创建个性化的演示视频，指导用户如何完成运动和康复治疗练习。视频模拟了用户需要执行的动作，允许他们在没有人类教练在场的情况下独立完成练习。

研究人员表示：“在机器人和人机交互中，使机器人能够在共享环境中执行类似人类的动作并无缝交互，可以极大地提高协作任务和效率。另外，我们的框架可以用于辅助生活和训练模拟，为各种专业领域的应急响应培训或技能发展等培训目的开发逼真的模拟。”

在未来，团队介绍的框架和数据集可以为基于人工智能的运动生成模型的进一步发展做出贡献。同时，研究人员正在努力进一步改进他们的方法，例如提高产生运动的物理准确性。

他们表示：“尽管我们目前的模型在产生视觉逼真的运动方面表现出色，但我们的目标是融入更细微的物理特性，如重力、摩擦和平衡。这种改进将确保动作不仅在外观上可信，而且在物理上同样可信，从而提高它们在现实场景中的可靠性和适用性。”

在接下来的研究中，这支团队将尝试提高模型产生的运动的粒度。目前，他们的模型专注于人物的身体动作，但最终他们希望它能捕获到更精细的细节，比如手势和面部表情。

研究人员说道：“通过整合相关元素，我们希望在虚拟角色中实现更高水平的真实感和表现力，使他们的交互更像人类，更吸引人。”

团队希望改进模型的另一个方面是在更大范围的角色-场景交互中进行泛化的能力。另外，他们希望模型能够实时合成运动：“对动态输入做出即时反应的能力，对于实时VR体验和响应式游戏环境等交互式应用尤其有益。实现实时功能将大大拓宽我们框架的实际可用性，使其更能适应现实世界的交互需求。”

在接下来的研究中，研究人员计划将多模态输入整合到框架中。这将允许用户以更吸引人的方式与虚拟角色互动：“通过结合额外的输入方式，如语音和手势，我们的目标是为运动合成创造一个更全面、更直观的界面。这种多模态方法将允许用户以更自然和无缝的方式与虚拟角色互动，从而增强整体用户体验。”

相关论文：Autonomous Character-Scene Interaction Synthesis from Text Instruction

https://pku.ai/publication/hoi2024siggraphasia/

团队的最终目标是确保他们的模型既可扩展又节能，特别是当它产生的交互复杂性增加时。这可以促进其实际部署，确保其性能和效率良好，即使在处理计算要求很高的任务时也是如此。

他们总结道：“我们渴望突破自动人体运动合成的界限，使其在各种行业和应用中越来越有效和通用。我们对我们研究的未来潜力感到兴奋，并期待着为这个充满活力的领域做出进一步的贡献。”

---
原文链接：https://news.nweon.com/125631

http://mp.weixin.qq.com/s?__biz=MzUzMDczNjc0OQ==&mid=2247553475&idx=3&sn=06f56ae887d5034e0d2657277623810f

映维网Nweon

映维网是一个始于2014年10月的增强现实（AR）、虚拟现实（VR）产业信息数据平台，专注于AR/VR产业发展及市场教育培养，致力于引导全球AR/VR产业发展，服务于全球各地的AR/VR创业者。

最新文章

幕后故事：Meta Orion AR眼镜的独家设计

这款AI眼镜戴上就不想摘下了！

香港考古学家用HoloLens 2、Quest Pro支持考古工作

Vuzix推出Vuzix Z100 智能眼镜，售价为499美元

超50款游戏大作登陆Xbox Cloud Gaming，并支持Meta Quest

台湾鸿海加入OpenUSD联盟

Niantic基于《Pokémon Go》玩家数据开发“地理空间大模型”

《Arcade Paradise VR》将于11月28日登陆PICO Store

20周年庆祝，《半衰期：爱莉克斯》3.4折只需67.32元

微软等团队基于HoloLens 2开发全息跨设备交互原型系统HoloDevice

五款VR游戏获今年TGA最佳AR/VR游戏提名

Niantic的MR体验《Hello, Dot》登陆Vision Pro

索尼发布PSVR 2游戏《Alien: Rogue Incursion》全新预告片

PSVR 2游戏《杀手暗杀世界》跳票至2025年3月

索尼宣布《长号冠军》VR版11月26日登陆PSVR 2

索尼宣布《Masters of Light》12月18日登陆PSVR 2

卡内基梅隆大学展示AR/VR体表输入，用皮肤模仿触屏手势

PICO合作伙伴的一系列研究证明VR在重塑医疗健康领域

ExR-VR Education用PICO头显提供灵活的VR医疗保健解决方案

研究员介绍AI驱动的超透镜成像系统，实现高质量紧凑光学系统

Vuzix M系列AR眼镜获云端解决方案Microsoft Intune认证

苹果向开发者推送visionOS 2.2第三个beta测试版

2024年11月16日美国专利局新申请AR/VR专利摘选

Steam VR 每周新内容

Meta Store每周新内容

Meta邀请研究学界申请AR眼镜Project Aria Research Kit

“星河战队”VR游戏《Starship Troopers: Continuum》登陆Meta Quest

沉浸式挖掘机体验《DIG VR》登陆Meta Quest

Meta为Horizon Worlds推出数字代币Meta Credits

第一人称惊悚重温《寂静岭2：重制版》，全新VR Mod已推出

建筑业AR解决方案GAMMA宣布获Autodesk战略投资

美国对Meta，PICO，Valve，HTC等VR厂商发起337调查

SteamVR Beta 2.9.1改善了大朋VR、PICO等头显的图像抖动问题

大朋VR亮相2024国际虚拟现实创新大会，教育、培训方案受青睐

AR头显厂商RealWear收购瑞士AR设备开发商Almer

AirCaps为听障患者推出手机端AI+眼镜端AR显示的解决方案

苹果发布The Weeknd沉浸式音乐体验，宣布下一个沉浸式MV《Concert for One》

ImagineAR起诉Niantic侵犯其AR/VR专利，包括《Pokemon GO》

MR多人射击游戏《Spatial Ops》登陆PICO Store和Meta Quest

传小米跟歌尔合作AI眼镜，雷军预期“30万台以上”

苹果软件Final Cut Pro 11现已支持空间视频编辑

Strivr为零售银行金融服务推出VR培训解决方案，支持PICO和Quest等头显

模拟城市建设游戏《Little Cities》将登陆Vision Pro平台

苹果向开发者推送visionOS 2.2第二个beta测试版

视频编辑软件DaVinci Resolve新增空间视频支持

YouTube在Quest版本正式推出共同观影功能

欧盟推出780万欧元项目加速AR/VR医疗保健应用

微软发布HoloLens 2最后一次系统功能更新，并强调没有未来硬件路线图分享

丰田和京东方团队研发汽车窗户双面AR显示系统，为乘客传递指引信息

Unity为AR/VR发布Unity 6开发性能优化指南

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉