《计算机辅助设计与图形学学报》
左右滑动查看目录
三维图形计算
大规模场景运动恢复结构研究综述
作者: 高翔, 李梦晗, 申抒含
单位: 中国科学院自动化研究所中国科学院工业视觉智能装备技术工程实验室;中国海洋大学工程学院;中国科学院大学人工智能学院
摘要:运动恢复结构旨在基于图像间的局部特征匹配解算相机在全局统一坐标系下的绝对位姿, 是基于图像的三维重建中的关键问题. 近年来, 随着采集设备、计算资源以及理论方法的发展, 运动恢复结构研究已逐渐由实验室小规模可控场景向室内外大规模实际场景扩展, 并取得了成果显著的理论方法与实际应用. 文中从实际应用出发, 综述了面向大规模场景三维重建的运动恢复结构研究领域的最新成果; 专注于运动恢复结构中相机位姿解算核心问题, 并全面介绍了其中的最新成果按照解析式与学习式方法进行; 在此基础上, 为助力社区发展, 讨论与分析的运动恢复结构当前研究进展与未来发展态势.
关键词: 运动恢复结构; 大规模场景三维重建; 解析式 SfM 方法; 学习式 SfM 方法
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.2024-00132
神经辐射场的研究现状与展望
作者: 李吉洋, 程乐超, 何靖璇, 王章野
单位: 浙江大学计算机辅助设计与图形系统全国重点实验室;江西求是高等研究院;之江实验室
摘要:基于 2D 图片的视点合成一直是计算机视觉和计算机图形学领域中的一个关键问题, 旨在通过一组目标场景的 2D 图片合成新视角下的场景图片. 神经辐射场作为一种新颖的隐式场景表达方式, 因其出色的视觉效果备受研究者的关注. 对神经辐射场的发展历程进行梳理, 从理论基础、优化与扩展以及应用等方面介绍了相关研究. 在神经辐射场的优化与扩展方面, 通过优化网络结构、模型压缩等方式加速训练及渲染过程, 还有一些工作致力于降低对输入图片的要求以及提高渲染质量; 在应用方面, 神经辐射场在人、物及场景的建模中展现出巨大的潜力, 并有工作将其扩展到动态场景的表达. 此外, 神经辐射场与生成式模型结合, 可以实现通过文本或者图像来引导三维模型生成的目标. 最后, 总结了现有研究工作的不足, 并指出加速神经辐射场的训练与渲染, 优化渲染结果, 以及进一步扩展应用场景仍然是未来相关工作的研究方向.
关键词: 神经辐射场; 深度学习; 神经渲染; 三维重建
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.2023-00376
基于方向编码与空洞采样的室内点云物体分割
作者: 李彭, 陈西江, 赵不钒, 宣伟, 邓辉
单位: 武汉理工大学安全学院;武汉理工大学土木学院
摘要:针对现有方法在处理局部特征时忽略方向信息, 且由于卷积核大小的限制无法有效地提取点云邻域特征等问题, 提出一种点云分割方法. 首先结合方向编码和空洞采样最大程度扩大网络的局部感受野. 其次利用图卷积神经网络挖掘局部邻域内点的信息. 然后使用邻域特征提取层自动加权融合邻域特征为更具有代表性的单个特征点. 最后结合空间注意力机制, 增加远程点之间的联系. 在 S3DIS 数据集上进行物体分割实验的结果表明, 所提方法的OA 和 mIoU 比 PointWeb 高 1.3 个百分点和 4.0 个百分点, 比基线方法 RandLA-Net 高 0.6 个百分点和 0.7 个百分点, 使用空洞采样与方向编码能够有效地提高点云的语义分割精度.
关键词: 三维点云; 空洞采样; 物体分割; 注意力机制; 方向编码
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19883
融合图像信息的跨模态 Transformer 点云补全算法
作者: 何星, 朱哲, 燕雪峰, 郭延文, 宫丽娜, 魏明强
单位: 南京航空航天大学计算机科学与技术学院;南京大学计算机软件新技术国家重点实验室
摘要:针对三维传感器(如 LiDAR、深度相机)获取的点云往往残缺不全, 需要进行补全处理, 而单模态方法存在的补全结果细节不丰富、结构不完整等问题, 提出一种融合图像信息的跨模态 Transformer 点云补全算法. 首先采用点云分支和图像分支分别提取点云特征和图像特征, 其中, 点云分支采用 PoinTr 为骨干网络, 图像分支采用 7 层卷积; 然后通过特征融合模块融合点云特征和图像特征, 由粗到精地生成全分辨率的点云. 在 ShapeNet-ViPC 数据集上进行实验的结果表明, 所提算法的可视化结果优于单模态点云补全方法和目前仅有的跨模态点云补全方法 ViPC, 且在大部分测试类别上的 CD-L2 量化指标优于 ViPC; 平均 CD-L2 为 2.74, 比 ViPC 低 17%. 为了便于研究人员评估和使用, 文中算法可通过 https://github.com/Starak-x/ImPoinTr 开源获取.
关键词: 点云补全; Transformer; 跨模态
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19905
CAD/CAE/CAM
G1连续组合曲线曲面的构造
作者: 严兰兰, 付雨楠, 揭梦柔, 刘喆
单位: 东华理工大学理学院
摘要:为了在保留 B 样条方法自动光滑性的基础上突破其要求各部分曲线曲面的次数必须相等的限制, 同时赋予曲线曲面独立于控制顶点的形状可调性, 提出一种 G1 连续组合曲线曲面的构造方法. 首先构造一组含 2 个自由参数的 n(n≥2) 次基函数并分析其性质, 基于该基函数, 定义了结构与 n 次 Bézier 曲线曲面相同的新曲线曲面, 其包含 n 次 Bézier 曲线曲面为特例; 然后分析新曲线曲面的 G1 光滑拼接条件, 根据拼接条件, 采用与 B 样条方法相同的组合思想但是不同的组合方式, 定义基于新曲线曲面的分段组合曲线与分片组合曲面, 其包含 2 次均匀和 2 次准均匀 B样条为特例. 实例结果表明, 定义方式自动保证了组合曲线曲面在连接处的 G1 连续性, 组合曲线曲面的端点与角点位置以及内部形状都可以通过改变自由参数的取值来进行调整, 且调整方式既可以是全局的又可以是局部的; 所提方法为复杂曲线曲面的造型设计提供了便利.
关键词: 曲线曲面设计; 组合曲线曲面; Bézier 方法; B 样条方法; 几何连续性
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19882
鲁棒的水密流形网格修复
作者: 王鹏飞, 徐敏峰, 辛士庆, 严冬明, 屠长河
单位: 山东大学计算机科学与技术学院; 山东财经大学计算机科学与技术学院; 天津大学智能与计算学部; 中国科学院自动化研究所模式识别国家重点实验室
摘要: 针对未经修复的网格模型一般存在非流形结构, 常带有孔洞、法向不一致、自交等缺陷, 很难直接应用到后续基于网格的应用中的问题, 提出一种保持输入网格特征的鲁棒水密流形网格修复算法. 首先利用 Manifoldplus 算法和卷绕数(winding number)构建能够区分输入网格内外且逼近输入网格的水密流形引导曲面; 然后利用引导曲面计算受限 Voronoi 图(restricted Voronoi diagram, RVD); 再通过对偶得到受限三角剖分(restricted Delaunay triangulation, RDT); 将非流形问题分解到 RVD 和 RDT 计算过程中, 保证计算的 RDT 即为修复后的水密流形网格; 最后在原始网格边中添加辅助点, 保持原始网格特征. 基于 Windows 10 平台, 在 ModelNet10 公开数据集上进行实验的结果表明, 所提算法在输出网格的平均精度为 1.54×10–6, 与 Manifoldplus 算法相当; 但是当输入的模型包含孔洞时, Manifoldplus 算法无法将孔洞合理地填补, 而该算法能够合理地填补孔洞.
关键词: 网格修复; 限制 Voronoi; 水密流形
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19892
基于点多边形的混合坐标
作者: 苗苗, 李亚娟, 邓重阳
单位: 杭州电子科技大学理学院
摘要: 为了构造非负且光滑的广义重心坐标, 提出一种基于点多边形的混合坐标构建方法. 首先将原多边形三角剖分, 计算所有网格顶点的重心坐标, 并确定每个网格顶点的点多边形; 然后分别计算原多边形内点关于其所在三角形的点多边形的重心坐标与混合系数, 根据以上计算结果得到混合坐标; 最后使用迭代坐标或调和坐标计算网格顶点的重心坐标, 用均值坐标和迭代坐标计算原多边形内点关于点多边形的重心坐标. 数值实例采用多个多边形的等高线图, 以及其不同重心坐标的非负区域、光滑性、纹理映射对比, 表明所提方法具有良好的光滑性, 且在任意多边形内部具有非负性.
关键词: 点多边形; 均值坐标; 迭代坐标; 调和坐标; 混合系数
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19908
图像视频处理
多模态特征融合和自蒸馏的红外-可见光行人重识别
作者: 万磊, 李华锋, 张亚飞
单位: 昆明理工大学信息工程与自动化学院
摘要:现有跨模态行人重识别方法大多挖掘模态不变的特征, 忽略了不同模态内的具有判别性的自有特征. 为了充分地利用不同模态内的自有特征, 提出一种多模态特征融合和自蒸馏的红外-可见光行人重识别方法. 首先提出一种基于双分类器的注意力融合机制, 为各模态的自有特征赋予较大的融合权重, 共有特征赋予较小的融合权重, 得到含有各模态判别性自有特征的多模态融合特征; 为了提升网络特征的鲁棒性以适应行人外观的变化, 构建一个记忆存储器来存储行人的多视角特征; 还设计了一种自蒸馏无参数动态引导策略, 在多模态融合特征和多视角特征的引导下, 利用该策略动态强化网络的多模态推理和多视角推理能力; 最后网络能够从一个行人的单模态图像推理出另一模态不同视角行人特征, 提升模型跨模态行人重识别的性能. 基于 PyTorch 深度学习框架, 在公开数据集SYSU-MM01 和 RegDB 上与当前主流的方法进行对比实验, 结果表明, 所提方法的 Rank-1 分别达到 63.12%和92.55%, mAP 分别达到 61.51%和 89.55%, 优于对比方法.
关键词: 跨模态行人重识别; 特征融合; 注意力机制; 记忆存储机制; 自蒸馏
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19886
基于运动引导图卷积网络的人体动作识别
作者: 李晶晶, 黄章进, 邹露河
单位: 中国科学技术大学大数据学院 ; 中国科学技术大学计算机科学与技术学院
摘要: 针对当前基于骨架的人体动作识别方法无法建模关节点之间依赖关系随时间的变化, 以及难以实现跨时空信息交互的问题, 提出基于运动引导图卷积网络的人体动作识别方法. 首先根据骨架序列提取其高级运动特征; 然后在时间维度上学习运动相关图, 并通过对预定义图和可学习图优化建模不同时期的关节依赖关系, 即运动引导拓扑图; 再利用运动引导拓扑图进行空间图卷积, 将运动信息融合到空间图卷积以实现跨时空信息交互; 最后交替使用时空图卷积, 实现人体动作识别. 在数据集 NTU-RGB+D 和 NTU-RGB+D 120 上与 MS-G3D 等图卷积网络进行对比实验的结果表明, 所提方法在 NTU-RGB+D 的跨对象和跨视角上的准确率分别提升到 92.3%和 96.7%, 在NTU-RGB+D 120 的跨对象和跨场景上的准确率分别提升到 88.8%和 90.2%.
关键词: 动作识别; 图卷积; 人体骨架; 运动引导拓扑图
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19898
可视化与可视分析
基于文本数据的篮球赛事可听化系统
作者: 余旻婧, 李俊沂, 蔡明旭, 庞德龙, 张梁昊, 张加万
单位: 天津大学智能与计算学部
摘要:篮球作为世界上普及程度最高的运动之一, 其相关赛事受到众多体育爱好者的关注, 具有极高的社会与经济价值. 对于以美国职业篮球联赛为代表的国际顶尖篮球赛事, 每年数以千计的比赛场次和动辄超过 2 h 的视频时长往往让渴望能高效地筛选兴趣赛事或定位精彩瞬间的观众望而却步. 为此, 设计了基于文本数据的篮球赛事可听化系统. 首先从球赛文本实况报道数据中顺序提取关键词并映射至特定旋律, 实现数据从文本至音频的跨模态表达; 然后将枯燥的球赛文本数据转化为音乐片段, 解决部分场景下用户视觉通道被占用无法观看比赛的问题, 为用户在较短时间内筛选兴趣赛事提供了可能. 以 2021 年度 NBA 季后赛为例, 所提系统平均单场比赛对应音乐片段生成仅需 0.094 s, 音频时长缩短为对应比赛视频时长的 12.27%. 通过 38 人参与的用户实验结果表明, 该系统在高效地反映比赛进程的同时, 也给用户提供了良好的球赛欣赏体验.
关键词: 篮球赛事; 可听化; 音乐摘要
长按扫码阅读全文或复制网址访问https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19904
数据整理脚本语义的可视化
作者: 罗中粟, 熊凯, 傅四维, 王永恒, 鲍虎军, 巫英才
单位: 浙江工业大学计算机科学与技术学院 ; 之江实验室;浙江大学计算机辅助设计与图形系统全国重点实验室
摘要: 理解数据整理脚本的语义是数据工作者的常见需求. 然而, 数据整理操作的类型及其代码的实现方式复杂多样, 使得数据工作者在理解脚本语义时费时费力. 通过收集数据工作者在理解数据整理脚本语义上的具体需求, 设计并实现了一个基于概览和细节模式的交互式可视分析系统 ChangeVis, 帮助数据工作者理解表格在数据整理过程中的变化. ChangeVis 包含概览视图, 语义视图, 统计视图和数据视图 4 个视图, 分别可视化代码块中的表结构变化、行列信息变化、单元格数据变化以及执行的数据转换操作的语义. 通过案例分析和用户实验, 验证了 ChangeVis系统在帮助数据工作者理解数据整理脚本语义的可用性和有效性.
关键词: 数据整理; 程序可视化; 可视化设计; 表格数据可视化
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19901
ModelLogVis: 面向模型服务的日志异常可视分析方法
作者: 卢裕弘, 朱琳, 封颖超杰, 王斯加, 林正轩, 潘嘉铖, 陈为
单位: 浙江大学计算机辅助设计与图形系统全国重点实验室 ; 之江实验室
摘要: 利用深度学习模型训练和运行维护过程产生的海量日志信息, 进行模型的优化与故障排查, 是当前人工智能运维的研究热点. 针对现有工作缺少模型工作流分析的问题, 提出面向模型服务的日志异常可视分析方法ModelLogVis. 该方法采用日志异常检测方法定位模型工作流中的潜在故障, 帮助用户聚焦主要的故障类型; 支持用户从数据流、状态、实例性能和原始日志等多个角度对工作流中的事件进行交互式可视化与分析, 快速、准确地排查问题. 通过真实的模型服务数据的案例研究和专家访谈, 证明 ModelLogVis 方法可高效地辅助用户快速挖掘日志中的异常信息.
关键词: 可视分析; 日志可视化; 异常检测
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19902
散点图信息混淆的可视分析模型
作者: 张景文, 蒲剑苏, 程卓越, 黄锦岳, 丛迅超
单位: 电子科技大学计算机科学与工程学院 ; 西南电子技术研究所
摘要: 信息混淆是指在有限的显示空间中, 由于信息量密度不当, 导致对信息的理解产生障碍. 散点图作为最常见的数据展示手段, 深受信息混淆困扰, 需要进行信息混淆消除. 从可视分析角度入手, 提出一个对散点图信息混淆量化评估的混淆熵模型, 并基于个体显著值模型和四分树结构提出了一个从内容和空间 2 个维度对散点图信息混淆进行消除的算法, 对高低显著值数据分别处理和指定显示大小与布局位置, 从展示和布局层面对散点图信息混淆进行消除.
关键词: 信息混淆; 散点图; 可视分析; 显著值模型
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19870
基于边缘感知的点云配准算法
作者: 高俊杰, 王瑞安, 王子雄, 董秋杰, 高浩浩, 辛士庆
单位: 山东大学计算机科学与技术学院
摘要: 在使用深度学习方法进行点云配准时, 直接利用特征相似性作为采样依据, 往往会导致采样过于集中且大量分布在平面等非显著区域内, 不利于变换矩阵的推导. 针对此问题, 提出一种边缘感知的点云配准算法. 首先通过分析点云中每点与其邻域点的空间分布对边缘区域进行检测; 然后针对现有的特征描述子和联合学习框架, 将对应关系和关键点的采样区域限定在边缘区域, 提高特征的匹配能力; 最后将特征相似性和显著性作为采样概率, 得到一组分布良好的对应关系或关键点并用于配准. 在真实数据集和合成数据集上的大量实验结果表明, 所提算法可以使现有的特征描述符达到与现有联合学习框架相当的性能, 对于现有联合学习框架, 在低重叠点云场景(3DLoMatch)中, 边缘区域采样关键点可以平均提高约 5%的配准召回率.
关键词: 点云配准; 边缘检测; 特征描述子; 关键点检测
长按扫码阅读全文或复制网址访问
https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024.19903
请投票选出本期最感兴趣的论文
票数最高的论文投稿作者将获得以下纪念品一份
注. 单篇投票票数大于20才能视为有效投票哦!
点个在看看好你喔!