3D世界模型:引领人工智能迈向空间智能的新时代

学术   2024-11-19 19:48   北京  

‍‍

3D世界模型是人工智能发展的重要方向,旨在让AI具备人类级别的空间智能,能够实现三维世界的感知、生成、推理及互动。3D世界模型使得AI大模型的数据处理能力从二维数据扩展到三维,其应用场景涵盖数字孪生城市、工业数字孪生、AR/VR、具身智能等多个领域。随着未来AI大模型能力的不断发展深化,3D世界模型将会推动AI进入空间智能的新时代。本文从3D世界模型的概念、核心技术、应用几个方面进行了分析,并探讨了3D世界模型未来发展的机遇和挑战。

3D世界模型:空间智能AI,实现3D世界的感知、生成、交互

2024年4月,人工智能领域的先锋人物李飞飞教授成立了World Labs公司。World Labs旨在创造一个像人类一样具有空间智能的AI模型,使其能够感知、生成并与3D世界互动,将AI模型从处理二维数据扩展为三维数据。World Labs研发团队有24人,由多位来自计算机视觉、深度学习和图形学领域的顶尖专家组成。2024年9月,World Labs宣布获得2.3亿美元(约16亿人民币)融资,由a16z、NEA恩颐投资和Radical Ventures领投,还有AMD、Adobe、Databricks的风投部门和Shinrai Investments LLC、英伟达等顶级投资机构的支持。World Labs成立仅3个月,估值已达到10亿美元。World Labs计划加速产品开发,预计最早在2025年推出产品,并进一步推动其在AR/VR、自动驾驶等多个行业中的应用。

近年来,人工智能大模型取得了飞跃式进展,在预训练生成式模型和多模态AI方面取得了突破性进展。GPT系列等生成式预训练模型具有强大的语言理解和生成能力,可以执行语言生成、翻译、写作等多种任务。另一方面,AI已经从单一任务的处理能力发展到可以理解和生成多模态数据的阶段,涵盖了语言、图像、音频等多个维度。例如DALL·ECLIP等模型可以理解描述文字并生成对应图像,sora等模型也可以实现文生视频,标志着AI跨越了语言和视觉领域。现在的AI大模型可以同时处理不同类型的数据,在文字理解、图像视频生成、视频理解等多模态任务中表现突出。

尽管AI在视觉、语音领域具有巨大潜力,但目前AI大模型仍主要属于语言智能的范畴,侧重于通过文本理解实现推理理解,未来的AI应该是空间智能的AI。空间智能是AI对三维空间建模、理解以及交互的能力,它涉及到对三维世界的感知、建模、互动以及推理决策。可以说语言智能的AI是能看到、会说话的AI,而空间智能的AI则是能行动的AI。未来空间智能的AI大模型可以理解并生成三维空间,同时与3D时空物体/场景进行交互和推理为了区别于现有语言智能的AI大模型,我们将其定义为3D世界模型

图1 2024中国AI大模型产业图谱

3D世界模型的关键技术

3D模型生成与编辑

3D模型生成是指使用3D世界模型从无到有地创建3D内容的过程。目前,通常利用深度学习的方法,如生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型和神经网络框架(如NeRF、ShapeNet)等,通过学习大量3D数据的分布特征,根据简单描述生成具有复杂结构和细节的3D模型。例如,VAST发布的Tripo AI平台能够利用文本或图像在几秒钟内生成高质量且可立即使用的3D模型,并且这些模型可以直接用于传统的3D编辑流程中进行进一步的细化和调整。北京大学、深圳研究院和鹏城实验室联合开发的3D全景世界生成框架HoloDreamer,能通过文本描述首先生成高清全景图作为3D场景的初始化,然后利用3D高斯溅射技术快速重建出细节丰富、视角一致的全封闭3D场景。

3D世界模型可以利用多模态输入,如文字描述或草图,实现基于AI的3D模型自动编辑。3D模型编辑是一个涵盖基础建模、细节雕刻、纹理贴图、材质属性、光照和动画制作的过程,而AI技术的应用使得这一过程更加高效和智能化。例如,斯坦福大学和北京大学的研究团队开发了Img2CAD,它能根据单视图图像逆向生成3D模型的CAD结构、预测连续属性,并提供了基于语言的模型编辑功能。南洋理工大学、清华大学和商汤科技联合提出了GaussianEditor算法,可以在几分钟内完成对3D场景的灵活快速编辑。

全要素的数据感知

全要素数据感知技术是实现3D世界模型建设的关键,它涉及从数据采集、传输、存储到处理的全过程。该技术利用各种传感器及数据采集技术,获取环境的几何、物理、运动状态等全方位信息,实现对现实世界的全面实时监控和管理。

数据采集方式多样,包括传感器、RFID设备、视频设备、LiDAR、GPS等,这些设备将原始数据转换为可用的信息,并广泛应用于各种环境监测和智能设备中。目前,数据采集技术已经从传统的人工采样和遥感发展到了利用无人机和移动设备进行自动化和智能化数据采集。随着网络通信技术的发展,数据传输的快速性和实时性得到了显著提升。例如,北京邮电大学的乔秀全团队研发了融合多模态的3D序列数据帧和多路径网络传输协议,动态适应异质网络信道条件,在保证3D内容传输质量的同时,显著提升了传输效率。

在数据存储方面,分布式数据库和云计算平台的使用,提高了数据管理的效率和访问速度。同时,数据处理技术,包括数据清洗、融合、分析和挖掘等,趋向于采用AI的方法,如深度学习算法进行图像识别和自然语言处理,以提高数据处理能力。同时,针对3D世界模型中的主要操作对象,数据的传输、存储和处理技术需要考虑支持多种3D序列数据,例如Mesh+贴图、点云、RGB-D图像等,以提供高效的3D内容传输和丰富的3D数据处理算法。

此外,全要素数据感知技术还包括边缘计算、情景感知和知识发现等支撑技术,能够在各级数据共享平台的支撑下实现原始数据或知识发现数据的共享,有助于提高资源利用效率,并确保3D世界模型的安全平稳运行。

3D模型的交互与演进

3D模型的交互是指用户通过手势、语音命令或其他输入设备与3D场景内的模型进行互动。当前的3D模型交互融合了AI技术,极大地提高了交互的智能化水平。例如,斯坦福大学与Meta合作开发的CHOIS系统,使用最新的条件扩散模型技术,可以根据文本描述合成逼真的3D人机交互动作。北京大学人工智能研究院的朱松纯团队提出了一种三维场景中语言约束下的室内人体运动模型生成方法Humanise,利用自回归条件扩散模型并根据场景生成符合语义且多样化的人体动作。

3D模型的自动演进则涉及模型根据用户的交互或环境变化自动更新和调整。该技术主要基于机器学习,特别是强化学习算法,使3D世界模型能够在与环境的交互中,实时学习和优化自己的行为。例如,3D-VLA是一种可以在具身环境中推理、理解、生成和规划的生成世界模型,其建立在基于3D的大型语言模型之上,并引入交互标记来与环境交互。此外,实时3D建模和渲染技术,如3D高斯溅射,不仅提升了渲染质量,还缩短了渲染时间,使得动态场景的三维重建和绘制更加高效。

随着云技术的普及以及AI、实时渲染技术的不断进步,3D世界模型的交互和演进将能够在不同设备和平台上无缝进行,3D内容的创作和使用将变得更加高效和便捷。

3D世界模型的重要应用场景

数字孪生城市

2021年我国“十四五”规划纲要中明确要探索建设数字孪生城市以来,各地方和机构纷纷加速在交通、水利、能源、应急等领域布局,全力推动数字孪生城市相关技术和产业的发展。利用3D世界模型建设数字孪生城市,构建城市的虚拟副本,可以实现对城市各个方面的实时监控和管理,使得城市管理者能够在虚拟环境中测试不同的策略,优化城市规划和发展。

工业数字孪生

在工业领域,3D世界模型可以应用于产品设计、生产模拟、设备维护和故障预测等多个过程,通过数字孪生场景的实时反馈机制,优化生产流程,提升效率和安全性。例如,通过模拟生产线的运行,可以在不影响实际生产的情况下测试新的生产流程,减少停机时间和成本。

AR/VR

3D世界模型为增强现实(AR)和虚拟现实(VR)技术提供了更便捷的工具,为用户带来了更沉浸式的体验。AR技术通过将虚拟信息叠加到现实世界中,广泛应用于教育、医疗和维修等领域。VR技术则通过创建完全虚拟的环境,广泛应用于游戏、影视和教育等领域。

具身智能

3D世界模型在具身智能领域中,能够模拟和连接智能体的感知和行动,赋予AI具有身体特征和行为的能力,使其能够在物理世界或虚拟环境中执行任务。例如,3D-VLA模型通过引入一类全新的具身基础模型,可根据生成的世界模型无缝连接3D感知、推理和行动。未来具身智能将广泛应用于工业制造、自动驾驶、物流运输、家庭服务、医疗护理等实际场景。

文旅文博

3D世界模型应用于文化旅游和博物馆展览中,可以实现通过数字化手段,创造出现实中不存在的空间场景,或是强化现有展陈空间中的媒介表达,提供沉浸式体验。例如,“数字中轴系列”项目通过VR技术重现历史遗迹,见证历史变迁,助力北京中轴线申遗成功,推动了文化旅游领域的发展。

3D世界模型未来展望

3D世界模型是空间智能的AI大模型,旨在赋予人工智能理解和交互三维世界的能力,将数据处理的能力从二维拓展到三维。3D世界模型未来将为自动驾驶、AR/VR、机器人等诸多领域带来巨大突破,在数字孪生城市管理和工业制造生产中发挥巨大作用。目前,3D世界模型仍然处在发展初期,未来3D世界模型将在更全面的感知能力、更真实的建模能力、更智能的交互能力三个关键能力上持续发展突破。首先,未来3D世界模型不仅依赖于视觉信息,还会融合更多维度的感知输入,如音频、触觉等,使其能够更加全面、精准地实现对真实世界的感知和理解。在全要素感知的辅助下,可以实现更精准、真实的建模,其不仅局限于三维空间的可视化,还可以模拟真实世界复杂的物理现象,为真实世界的模拟决策奠定基础。在感知和建模能力之外,未来的3D世界模型还能与人类和物理环境进行复杂智能交互,甚至具有自主决策能力。

尽管3D世界模型有广阔的应用前景,但未来仍面临着诸多挑战。在计算资源和能耗方面,3D世界模型涉及对海量多模态数据的处理以及3D场景的实时生成,这对计算资源和能耗提出了极高的要求。如何优化模型结构,提高训练效率,降低计算资源和能量消耗,是未来需要解决的重大难题。在数据隐私与安全方面,3D世界模型涉及传感器实时采集的视频图像音频数据以及海量的真实世界用户数据,过程中如何保证用户数据的隐私性以及数据采集、传输过程中无泄漏的风险,这将会成为3D世界模型广泛应用前亟待解决的问题。在模型的可解释性和透明性方面,在用户利用3D世界模型进行交互与决策时,需要确保过程是可解释的,尤其是在自动驾驶、工业生产等领域,模型的决策要求基于客观规律,以保证用户人身财产的安全。

总结与展望

3D世界模型是未来人工智能发展的重要方向,其实现了AI大模型从语言智能到空间智能的转变。3D世界模型为各领域带来了新的机遇,国内需要推进产学研各界深度融合,加大研发投入,同时加强国际合作,持续推进3D世界模型相关技术的发展及产业应用的布局。

参考文献】
[1] https://mp.weixin.qq.com/s/86S4gr3YypWYLd4CHrljPA 《2024中国AI大模型产业图谱2.0版》重磅发布
[2]华为云计算技术有限公司,中国信息通信研究院,《数字孪生发展研究报告》,2024
[3]中国信息通信研究院,《具身智能发展报告》,2024
[4] Zhou H, Cheng X, Yu W, et al. HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions[J]. arXiv preprint arXiv:2407.15187, 2024.
[5] You Y, Uy M A, Han J, et al. Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization[J]. arXiv preprint arXiv:2408.01437, 2024.
[6] Wang Z, Chen Y, Liu T, et al. Humanise: Language-conditioned human motion generation in 3d scenes[J]. Advances in Neural Information Processing Systems, 2022, 35: 14959-14971.
[7] Zhen H, Qiu X, Chen P, et al. 3D-VLA: A 3D Vision-Language-Action generative world model[J]. arXiv preprint arXiv:2403.09631, 2024.

审稿:杨蕾、郭勐 | 业务研究所

本文作者


史宛鑫  业务研究所
就职于中国移动研究院,主要从事视频AI、沉浸媒体等领域研究工作。

田孜孜  业务研究所
就职于中国移动研究院,主要从事沉浸媒体、数字孪生城市、元宇宙等领域研究工作。
李  杰  业务研究所
就职于中国移动研究院,主要从事视频领域视频AI、视频边缘智能及沉浸媒体相关技术研究、能力构建及产品开发工作。


关于我们:中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。

中移智库
中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。 联系我们:cminfo@chinamobile.com
 最新文章