首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

科技 2024-12-09 21:18 辽宁

SmartFlowAI

点击上方蓝字关注我们
转载自新智元，编辑LRST
SOLAMI是一个创新的VR端3D角色扮演AI系统，用户可以通过语音和肢体语言与虚拟角色进行沉浸式互动。该系统利用先进的社交视觉-语言-行为模型，结合合成的数据集，提供更自然的交流体验，超越了传统的文本和语音交互。

世界上第一个VR端 3D版的角色扮演AI就在刚刚诞生了！

AI角色扮演类游戏（如C.AI、Talkie）从发布以来，一直都是人们最喜欢的AI产品之一。虽然广受欢迎，但不少用户提出，期待和这些角色在VR中有更进一步的交流。

近日，来自南洋理工大学的研究团队在VR中实现了第一个3D版角色扮演AI系统SOLAMI，并公开其详细的技术报告。没错，这意味着和各种角色在VR中沉浸式聊天已经是可实现的！

项目主页：https://solami-ai.github.io/

技术报告：https://arxiv.org/abs/2412.00174

完整介绍视频：https://www.bilibili.com/video/BV1D6zpYHEyc/

从技术报告中我们可以看到，SOLAMI支持多种角色，有超级英雄蝙蝠侠，小可爱机器人，二次元老婆，香蕉猫，世界名人特朗普，……

SOLAMI驱动的AI角色能识别用户的肢体语言，从而去关心和理解用户.

想让角色跳个舞？只要说句话，角色就能听懂做到.

还可以和角色玩游戏，比如跟着用户节奏动起来，或者剪刀石头布.

那么SOLAMI提出的动机是什么？模型是怎么工作的？使用了什么样的数据训练的？

研究背景

大家有没有想过和一个虚拟角色进行面对面的深度对话?不仅仅是简单的语言交流,而是能像现实社交一样,观察对方的面部表情、自然的身体语言,甚至是细微的情绪变化。

心理学研究表明，在社交互动中，沉浸程度越高，用户体验就越好。但目前的AI角色（如Character.ai等) 仍然局限于文本或者语音的交互。这促使我们思考：如何构建具有更丰富模态的3D自主角色呢?

要实现这个目标，主要面临两个挑战:

1. 3D角色需要准确观察和理解用户行为信息，并基于上下文和角色设定通过语音、肢体动作和表情做出合适的回应。这已经超越了之前的单一任务（动作理解，动作生成，语音驱动肢体等）的范畴。

2. 数据稀缺的问题。人和3D角色进行多模态交互的数据极其稀缺，收集这类数据需要复杂的设备和巨大成本。

传统的LLM-Agent框架虽然在高层次任务（如规划和记忆）表现不错，但在理解用户行为和提供及时的肢体语言反馈上存在局限。这是因为用文本作为子模块之间联系的媒介会丢失很多细微的信息。

有趣的是，机器人领域的研究给了我们启发:对于低层次的操作任务,基于LLM构建的端到端视觉-语言-行为 (Vision-Language-Action，VLA)模型表现更好。数字角色本质上就是虚拟人形态的机器人，那么构建一个偏向于社交互动的VLA模型会不会是一个有潜力的方向?

Social VLA模型

SOLAMI推理图

如图所示，SOLAMI中所有角色的驱动都是由一个统一的端到端VLA多模态模型驱动。给定角色的设定，模型以用户的语音和动作作为输入，将这两种模态通过Motion Tokenizer和Speech Tokenizer分别编码为LLM新的词表中的token，LLM基座会自回归输出角色的语音和动作token，再通过解码器分别解码为角色的3D动作和语音，来驱动角色做出反应。

与GPT-4o相比，这个模型多了个用户动作的模态，用于理解用户的肢体语言，生成角色的动作。

在这里，用户的动作以SMPL-X的3D旋转进行表示，动作被拆为三个部分：相对于3D角色的相对位置，肢体动作，和手部动作。分别经过3个VQVAE进行编码。用户的语音使用RVQ-VAE结构进行编码，使用的SoundStorm进行解码，在解码过程中，只要输入小段角色的语音作为prompt，就可以实现声音克隆。

SOLAMI训练过程

模型的训练主要分为两个阶段：多任务预训练和指令微调训练。

多任务预训练阶段主要使用动作-文本、语音-文本相关的数据集进行训练，训练任务包括 text-to-speech, automatic speech recognition，speech-to-speech，motion understanding，motion generation，interactive motion generation六个任务。目的在于让SOLAMI学习动作、语音和文本之间的关联。

指令微调阶段主要训练模型进行多轮多模态对话的能力。使用合成的数据集，模型被要求学习基于角色设定和用户输入该如何做出语音和动作的反馈。

数据收集

用于训练模型的数据是相当稀缺的。毕竟，很少人能和蝙蝠侠面对面说过话。因此，研究人员考虑使用现有不同模态的数据进行合成。

首先，研究人员基于公开的动作-文本数据集构建了一个大规模的带有语义标注的动作库，包含4万多个人体动作，然后使用GPT-4o生成角色和用户对话的纯文本的台词剧本。

根据生成的剧本动作，从动作库检索最合适的已有动作，根据检索到的动作修缮好对应的台词。这样生成的文字剧本能和合成数据中的动作较好吻合。最后，通过声音克隆合成角色特有声音。这样，一个低成本可用的合成数据集得以实现。

SOLAMI合成数据管线

VR工程实现

SOLAMI VR工程框架

研究人员基于Oculus Quest 3开发了一个完整的VR交互系统。

前端支持用户与3D虚拟角色的沉浸式交互，后端由2块H800 GPU提供计算支持，可以支持多种模型和方法。

在交互时，VR头显会实时捕捉用户的语音和全身动作，发送给后端。后端运行SOLAMI模型，生成角色的语音、肢体动作和面部表情响应，发送给前端来驱动角色。

实验结果

在本工作中，研究人员希望探讨两个问题：与纯语音相比，3D角色与动作是否会给AI角色扮演带来体验提升？与LLM-Agent结构相比，端到端的VLA结构是否在交互质量和延迟上有体验提升？

为此，研究人员选择了两种对比方法：LLM+Speech，DLP（MoitonGPT）。前者是纯语音的交互，后者是LLM-Agent结构驱动的数字角色。为了保证公平，这些方法的基座模型都是llama2-7B，并使用vLLM部署进行加速。

定量实验结果

定量实验结果表明，SOLAMI在动作质量和语音质量上表现都优于对比方法，并且有较低的事件延迟。消融实验也表明，多任务的预训练对模型最终效果有重要提升。

实验定性分析与VR使用流程

除了定量试验外，研究人员还做了用户实验，通过让用户在VR头显中跟各种角色互动，并且根据体验进行打分。可以发现SOLAMI体验明显好于纯语音方法和LLM-Agent结构方法。有趣的是，虽然纯语音方法在对话内容上比LLM-Agent结构方法好，但是总体体验上还是弱于后者，这印证了角色和肢体语言在AI角色扮演中对于体验的重要性。

消融实验结果

总结

研究人员在这篇工作中，提出了一个Social VLA的端到端建模3D数字角色的技术框架，一种从现有不完备模态的数据合成多模态社交互动数据的管线，和一个支持用户和角色进行沉浸式互动的VR交互系统。

当然，作为一个新的方向，研究者们指出了一些值得探索的方向，比如输入输出模态的设定、数据搜集方式、跨具身问题、长短时记忆问题、技能学习方法等。感兴趣的朋友可以参考技术报告。

参考资料：

https://solami-ai.github.io/

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

具身智能的数据采集主流路径

Huggingface发布近三年最受喜爱和下载量最多的模型榜单

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉