文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

科技 2024-11-25 13:19 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者为上海科技大学信息学院硕士生徐京伟和忆生科技的王晨宇，指导老师为香港大学的马毅教授和高盛华教授。王晨宇毕业于上海科技大学并获得工学硕士学位。其所在的忆生科技由马毅教授于 23 年底创立，致力于打造完整、自主、自洽的机器智能系统。

该项目由忆生科技联合香港大学、上海科技大学共同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。

计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前的 CAD 软件普遍缺乏简易的交互工具，这在一定程度上限制了未曾接触过 CAD 的用户尝试和探索的可能性。对于 CAD 建模从业者而言，多模态大模型技术的快速发展尚未充分转化为 CAD 领域实际应用的便利性和效率提升。如果能够通过多模态交互工具有效优化建模流程，提升效率、节约时间与精力，不仅可以进一步释放专业用户的创造潜能，还将为相关产业的发展注入新的活力。

为应对这一挑战，项目团队构建了首个覆盖文本、图像和点云输入的多模态 CAD 数据集 Omni-CAD。该数据集致力于赋能多模态大语言模型，使其能够基于条件输入生成高质量的 CAD 模型。与此同时，针对 CAD 模型的拓扑质量、空间封闭性等核心属性，团队还设计了一系列创新的评估指标，为模型性能提供更全面的衡量标准。借助这一技术，用户只需输入简单的文本指令，或上传目标形状的图像，即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户的使用门槛，激发了更多人参与 CAD 设计的兴趣，还为 CAD 建模从业者提供了高效可靠的工具支持。

论文标题：CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
论文地址：https://arxiv.org/pdf/2411.04954
项目主页：https://cad-mllm.github.io/

计算机辅助设计（CAD）技术通过数字化工具，帮助设计师创建、修改和优化复杂对象，广泛应用于工业设计与制造。但传统的流程较为复杂，对专业知识有较高要求，导致非专业用户难以参与设计。如何降低使用门槛，让非专业人士通过简单指令完成设计构想，已成为该领域亟待解决的挑战之一。尽管之前一些工作已经在探索 CAD 的生成任务，但这些方法抑或难以满足用户对交互设计的需求，抑或只能针对特定的输入进行生成，因此我们希望提供一个统一的框架能够处理不同或多种输入条件的 CAD 生成任务。

而另一方面，尽管多模态大模型（MLLMs）展现了跨模态生成的潜力，但在 CAD 领域依然面临挑战。尤其是在如何高效表征各种模态和 CAD 模型上，同时，数据集匮乏问题也一直是一大瓶颈。因此，我们提出了 CAD-MLLM，首个支持文本、图像和点云三种模态及其组合模态输入的以命令序列来表征的参数化 CAD 大模型，并搭配构建了一个超过 45 万条数据的多模态 CAD 数据集 Omni-CAD，推进该领域的研究。

技术创新

1. 首个支持多模态输入的参数化 CAD 生成多模态大模型

我们提出了一个能够同时处理文本、图像和点云，最多三种模态输入数据的模型。图像和点云输入首先通过一个冻结的编码器提取特征，经投影层对齐到大语言模型（LLM）的特征空间。随后，将各种模态的特征进行整合，并利用低秩适应（LoRA）对 LLM 进行微调，实现基于多模态输入数据的精确 CAD 模型生成。

2. 首个多模态 CAD 数据集

为了支持模型训练，我们设计了一套全面的数据构造和标注管道，构建了包含 45 万条的多模态 CAD 模型数据集 Omni-CAD。每条数据包含对应的 CAD 模型构造命令序列，以及文本描述、8 个不同视角的图像（下图随机挑其中 4 个视角展示）以及点云数据，极大地填补了 CAD 多模态数据资源的空白，也有助于推动 CAD 生成领域的进一步发展。

3. 评估指标

在评估指标上，之前的工作更多聚焦在模型的重建质量和结构保真度上，而我们针对 CAD 模型的特性，基于最终生成的 CAD 模型的拓扑质量和空间封闭性，创新性地提出了四种量化指标。其中，Segment Error（SegE）检测 CAD 模型节点连接分段的准确性，Dangling Edge Length (DangEL) 评估悬边的比例来衡量生成模型流形的保真度，Self-Intersection Ratio (SIR) 检测生成模型中的自相交面问题。而 Flux Enclosure Error (FluxEE) 则通过高斯散度原理，计算常矢量场穿过生成表面的通量，评估模型的空间封闭性。

性能评估

1. 基于点云的 CAD 模型生成性能

我们与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构，没有出现悬边，具有较高的拓扑完整性。相比之下，基准模型在重建结果中往往存在许多悬空边缘（如图中蓝线所示）。

2. 鲁棒性测评

在基于点云生成 CAD 模型的比较实验中，我们针对两种受干扰的输入数据的情况进行了测评：添加噪声的点云数据及部分点缺失的点云数据。在从测试集中随机挑选的 1000 个样本上，使用 Chamfer Distance 来衡量生成结果，在两种情况下，CAD-MLLM 的性能均优于基线工作，特别是在一些极端条件下，依然展现出了良好的性能。

3. 多模态数据训练必要性测评

我们通过三个实际场景来展示多模态数据训练对于模型生成能力的辅助提升，1）裁剪的点云数据；2）带有噪声的点云数据；3）双视角图像输入。以上三种情况，单一模态数据的训练，会由于细节丢失或者视角限制使得输入信息的不准确，进而导致生成结果的不完整或者不精准，而加入完整的模型的文本描述，可有效弥补未观测到的部分，生成更为完整、精确的 CAD 模型。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650944160&idx=4&sn=42b5b7d8db1b89fa92c78d668d3d1d11

机器之心

专业的人工智能媒体和产业服务平台

最新文章

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉