文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

文摘 2024-11-27 07:00 上海

作者 | 机器之心编辑 | 机器之心

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇，指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立，致力于打造完整、自主、自洽的机器智能系统。

该项目由忆生科技联合香港大学、上海科技大学共同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。

计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前的 CAD 软件普遍缺乏简易的交互工具，这在一定程度上限制了未曾接触过 CAD 的用户尝试和探索的可能性。对于 CAD 建模从业者而言，多模态大模型技术的快速发展尚未充分转化为 CAD 领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程，提升效率、节约时间与精力，不仅可以进一步释放专业用户的创造潜能，还将为相关产业的发展注入新的活力。

为应对这一挑战，项目团队构建了首个覆盖文本、图像和点云输入的多模态 CAD 数据集 Omni-CAD。该数据集致力于赋能多模态大语言模型，使其能够基于条件输入生成高质量的 CAD 模型。与此同时，针对 CAD 模型的拓扑质量、空间封闭性等核心属性，团队还设计了一系列创新的评估指标，为模型性能提供更全面的衡量标准。借助这一技术，用户只需输入简单的文本指令，或上传目标形状的图像，即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户的使用门槛，激发了更多人参与 CAD 设计的兴趣，还为 CAD 建模从业者提供了高效可靠的工具支持。

论文标题：CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
论文地址：https://arxiv.org/pdf/2411.04954
项目主页：https://cad-mllm.github.io/

计算机辅助设计（CAD）技术通过数字化工具，帮助设计师创建、修改和优化复杂对象，广泛应用于工业设计与制造。但传统的流程较为复杂，对专业知识有较高要求，导致非专业用户难以参与设计。如何降低使用门槛，让非专业人士通过简单指令完成设计构想，已成为该领域亟待解决的挑战之一。尽管之前一些工作已经在探索 CAD 的生成任务，但这些方法抑或难以满足用户对交互设计的需求，抑或只能针对特定的输入进行生成，因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。

而另一方面，尽管多模态大模型（MLLMs）展现了跨模态生成的潜力，但在 CAD 领域依然面临挑战。尤其是在如何高效表征各种模态和 CAD 模型上，同时，数据集匮乏问题也一直是一大瓶颈。因此，我们提出了 CAD-MLLM，首个支持文本、图像和点云三种模态及其组合模态输入的以命令序列来表征的参数化 CAD 大模型，并搭配构建了一个超过 45 万条数据的多模态 CAD 数据集 Omni-CAD，推进该领域的研究。

以下视频来源于

忆生科技

技术创新

1. 首个支持多模态输入的参数化 CAD 生成多模态大模型

我们提出了一个能够同时处理文本、图像和点云，最多三种模态输入数据的模型。图像和点云输入首先通过一个冻结的编码器提取特征，经投影层对齐到大语言模型（LLM）的特征空间。随后，将各种模态的特征进行整合，并利用低秩适应（LoRA）对 LLM 进行微调，实现基于多模态输入数据的精确 CAD 模型生成。

2. 首个多模态 CAD 数据集

为了支持模型训练，我们设计了一套全面的数据构造和标注管道，构建了包含 45 万条的多模态 CAD 模型数据集 Omni-CAD。每条数据包含对应的 CAD 模型构造命令序列，以及文本描述、8 个不同视角的图像（下图随机挑其中 4 个视角展示）以及点云数据，极大地填补了 CAD 多模态数据资源的空白，也有助于推动 CAD 生成领域的进一步发展。

3. 评估指标

在评估指标上，之前的工作更多聚焦在模型的重建质量和结构保真度上，而我们针对 CAD 模型的特性，基于最终生成的 CAD 模型的拓扑质量和空间封闭性，创新性地提出了四种量化指标。其中，Segment Error（SegE）检测 CAD 模型节点连接分段的准确性，Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度，Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而 Flux Enclosure Error (FluxEE) 则通过高斯散度原理，计算常矢量场穿过生成表面的通量，评估模型的空间封闭性。

性能评估

1. 基于点云的 CAD 模型生成性能

我们与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构，没有出现悬边，具有较高的拓扑完整性。相比之下，基准模型在重建结果中往往存在许多悬空边缘（如图中蓝线所示）。

2. 鲁棒性测评

在基于点云生成 CAD 模型的比较实验中，我们针对两种受干扰的输入数据的情况进行了测评：添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的 1000 个样本上，使用 Chamfer Distance 来衡量生成结果，在两种情况下，CAD-MLLM 的性能均优于基线工作，特别是在一些极端条件下，依然展现出了良好的性能。

3. 多模态数据训练必要性测评

我们通过三个实际场景来展示多模态数据训练对于模型生成能力的辅助提升，1）裁剪的点云数据；2）带有噪声的点云数据；3）双视角图像输入。以上三种情况，单一模态数据的训练，会由于细节丢失或者视角限制使得输入信息的不准确，进而导致生成结果的不完整或者不精准，而加入完整的模型的文本描述，可有效弥补未观测到的部分，生成更为完整、精确的 CAD 模型。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247517755&idx=4&sn=99c98069e4d406c5e2af580ae5aa4415

3D视觉之心

3D视觉与SLAM、点云相关内容分享

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

具身智能训练数据集哪里找？几大开源数据集帮你汇总好了！

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

字节&清华&北京交通大学发布V2X-Radar: 一个用于协同感知的4D雷达多模态数据集

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

3DLS全新尝试：线性高斯核在高频区域实现更清晰、更精确的结果，帧率提高30%！

闭环仿真杀器！DrivingSphere：理想提出直接构建高保真4D世界

真实雨景/图像去雨/自动驾驶/图像检索相关方向开源数据集资源

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

高速动态低成本重建救星？SCIGS：首个从单个压缩图像重建3D显式动态场景的方法

论文分享 | 全景场景补全

动态SLAM全新数据集！InCrowd-VI：不同人群密度、遮挡、复杂光照的视觉惯性SLAM数据集！

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

盘点！那些从自动驾驶“跳槽”进具身智能的大佬们

清华大学发布使用CARLA生成V2V与V2I的增强自动驾驶协作的多智能体调度数据集WHALES

GarVerseLOD：实现单张图像高保真度服装重建的3D重建框架

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉