中国计算机学会(CCF)作为国内的权威评定机构,CCF推荐的高水平学术期刊/会议,是当下计算机领域对研究成果的主流参考标准之一,也被很多科研机构、高校、及大厂企业作为招聘标准。同时,因为计算机学科的特殊性,如学界和工业界联系非常紧密、技术迭代速度快,相比于录用周期长的期刊,高频率高质量且带有交流性质的顶级会议有非常高的认可度。
此外,不仅限于CCF A/B/C类的划分体系,具有国际顶级期刊/会议的产出成果积累,在不同国家、院校和不同研究评价体系下都是具有绝对竞争优势的“硬通货”;在竞争激烈的环境中,高价值助力🔺博士申请加分项🔺硕士申请&保研加分项🔺奖学金申请🔺转行&转专业项目积累🔺互联网大厂/高校研究型求职履历等等。
“转码研究课题”系列也将一一解决学员们在转方向时的各项困扰!
📍高效补充基础、攻克技术阻碍
📍优化学习曲线、丰富实践经验
📍积累项目产出、增加研究成果
📍突破资源限制、获得前辈支持
“基于NeRF和Gaussian Splatting
的三维重建、定位和理解”
静态场景下的高精度SLAM、三维重建和场景理解
渲染与LLM结合的三维场景理解
香港Top3高校博士
现任欧洲名校博士后
研究领域集中于三维计算机视觉和机器人导航,具体包括动态SLAM(考虑动态行人和动物),三维重建及渲染,与大语言模型结合的3D视觉任务等。以第一作者在CVPR(CCF A类),ICCV(CCF A类),ECCV(CCF A类),世界公认三大计算机视觉顶级会议;以及IEEE Transactions on Pattern Analysis and Machine Intelligence (SCI Q1 中科院一区兼领域Top期刊) 等计算机顶级会议和期刊发表近10篇论文。同时常年于CVPR,ICCV,ECCV,ICRA,IROS等会议担任审稿人。
A类备注说明:
CCF A类-CVPR,全称IEEE/CVF Conference on Computer Vision and Pattern Recognition
CCF A类-ICCV,全称International Conference on Computer Vision
CCF A类-ECCV,全称The European Conference on Computer Vision
NeRF为神经辐射场,发表于计算机视觉顶级会议ECCV 2020。该技术最开始主要用于新视角合成(渲染)工作。由于其可以隐式地对三维场景进行高精度表达,行业迅速将其拓展到三维重建、SLAM(及时定位与地图构建)等任务中。其中面向物体级别的NeRF为行业近期关注的重点。
Gaussian Splatting为2023年最新的可微分渲染工作,发表于计算机图形学顶级会议SIGGRAPH 2023。其兼具显式和隐式方法的优势。具体来说,高斯球的位置与物体表面关联,具有几何可解释性;同时高斯球的参数(朝向、尺度、透明度、颜色等)又与NeRF相关联,很好地支持了可微分渲染。Gaussian Splatting的应用前景广泛,是近期三维视觉行业的另一个重要发展方向。
本课题会带领学员们,探索基于NeRF和Gaussian Splatting的各项应用场景,包括三维重建和渲染(场景级别和物体级别均涉及),机器人或车辆定位(与SLAM结合),三维场景理解(与大语言模型结合)。
课题导师将在以下几个方面帮助学员们学有所得:
① 梳理课题发展脉络和基本知识点;
② 提供研究方向建议;
③ 给出宏观idea,并和学员合作讨论具体做法;
④ 实验设计和论文写作指导等。
Comparison between sphere-based sampling and the proposed sampling strategy
Qualitative results on the Heritage-Recon dataset
图片来源:Sun, J., Chen, X., Wang, Q., Li, Z., Averbuch-Elor, H., Zhou, X., & Snavely, N. (2022, July). Neural 3d reconstruction in the wild. In ACM SIGGRAPH 2022 conference proceedings (pp. 1-9).
1. 动态人体、动物的三维表达,应用于Avatar建模、SLAM(及时定位与地图构建)和无人驾驶
考虑时间信息的神经场/高斯球位置的4D表达,考虑运动固有约束或额外跟踪观测;
考虑人体姿态先验信息,如SMPL模型的约束从而实现从canonical空间到实际空间的变化;
基于NeRF物体级别的编辑,用于无人驾驶数据合成等应用。
2. 静态场景下的高精度SLAM和三维重建
通过可微分渲染对相机的外参数进行优化,同时优化三维场景;
通过相机间的运动约束实现few-shot等三维重建任务,可与HDR等高级照片表达结合。
3. 渲染与LLM(大型语言模型)结合的三维场景理解
探索LLM的CLIP feature与Gaussian Splatting的结合,作为LERF的提升,可用于物体索引等任务;
利用多视角信息(多视图几何)提升CLIP feature的性能。可利用于机器人的视觉语言导航等任务。
Timeline SLAM Evolution
Comparison of Scene Representations: Implicit, Explicit, and Hybrid
SLAM Systems Overview
Overview of iMap, the Pioneering Approach in Neural Implicit-based SLAM
Overview of GS-SLAM. This framework leverages the 3D Gaussian scene representation and rendered RGB-D images for inverse camera tracking. Through a novel Gaussian expansion strategy, GS-SLAM achieves real-time tracking, mapping, and rendering on GPUs, enhancing scene reconstruction capabilities.
左:3D Gaussian Visualization. (Left) Rasterized Gaussians, (Right) Gaussians shaded to highlight the underlying geometry;右:Submaps Visualization
左:Semantic Visualization;中:Overview of the DEV-Indoors Dataset;右:Overview of PIN-SLAM
SLAM Methods Comparison on the ScanNet Dataset – Surface Reconstruction and Localization Accuracy. Ground truth trajectory in blue, estimated trajectory in orange. ATE visualized with a color bar
……更多实验结果可查看全文
可滑动翻阅,图片来源:Tosi, F., Zhang, Y., Gong, Z., Sandström, E., Mattoccia, S., Oswald, M. R., & Poggi, M. (2024). How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey. arXiv preprint arXiv:2402.13255.
参考信息如:“中国计算机学会推荐国际学术会议和期刊目录”
以上所列出的创新点与目标刊物作为范围参考,学员实际选题不限于以上所列出的内容,投递平台也可以选择其他意向顶级会议或期刊,欢迎提出想法与导师交流
全程由本期导师进行课上讲授与课下答疑、带领学员完成研究项目与学术论文。
章节1-章节14:
6位(及6位以内)学员/班,师生小班化实时指导,并配有1V1答疑群;涵盖技术学习、课后练习、文献整理、细化定题、模型实现、实验进阶、及论文整体初稿;
章节14-可继续完善实验/论文:
1位学员/班,即后续为师生1对1指导;对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。
章节1-章节14:
结合组内学员的时间安排,每周固定指导时间,按1个章节/周的进度,共14周完成14个章节,即该阶段周期为3.5个月;
章节14-可继续完善实验/论文:
学员根据个人完成进度,与导师反馈问题、提交阶段性稿件并完成最终的论文定稿。结合学员自身可投入的时间量、项目难度等,可在1-2个月内完成,该阶段最长可至2.5个月。
在动态SLAM(考虑动态行人和动物),三维重建及渲染(基于NeRF或相关方法)等方向有学习或研究经验的学员;
对于非以上所列背景的学员(如转方向/转专业),可根据“课题简介”在课前调研当下的技术与应用情况;
不限于在校生或在职人员,但个人时间分配情况需尽力跟上课程节奏。
实际课程安排和大纲将在开课后结合当期学员情况稍作调整。整体分为4个阶段:
行业发展梳理
1) 从DeepSDF到NeRF再到Gaussian Splatting的理解;
2) 研究点的宏观介绍。
基础知识讲解(一)
1) 3D视觉基础(透视投影、Bundle Adjustment、多视图几何等)。
基础知识讲解(二)
1) SDF、NeRF和Gaussian Splatting的基础知识(如Photometric loss等)。
基础知识讲解(三)
1) 大语言模型基础(如CLIP feature等)。
隐式表达和神经渲染在相关行业中的应用及代表性工作介绍(一)
1) 在原始的渲染工作中的应用;
2) 在三维表达中的应用和代表性工作(DeepSDF、HumanNeRF等)。
隐式表达和神经渲染在相关行业中的应用及代表性工作介绍(二)
1) 在SLAM的应用和代表性工作(iMAP、NICE-SLAM、GS-SLAM等)。
隐式表达和神经渲染在相关行业中的应用及代表性工作介绍(三)
1) 在场景理解中的应用和代表性工作(LERF、FMGS等)。
We introduce the task of novel view synthesis for LiDAR sensors. Given multiple LiDAR viewpoints of an object, novel LiDAR view synthesis aims to render a point cloud of the object from an arbitrary new viewpoint
A comparison of novel view LiDAR point clouds generated from LiDARsim , PCGen, and our LiDAR-NeRF
(a) We design two square paths of collection, small and large with 7 and 15 meters in length respectively. (b) Our NeRF-MVL dataset encompasses 9 objects from common traffic categories. We align multiple frames here for better visualization
……更多实验结果可查看全文
可滑动翻阅,图片来源:Tao, T., Gao, L., Wang, G., Chen, P., Hao, D., Liang, X., ... & Yu, K. (2023). LiDAR-NeRF: Novel lidar view synthesis via neural radiance fields. arXiv preprint arXiv:2304.10406.
宏观Idea介绍和具体Idea讨论(一)
——三维表达篇
1) 介绍与高精度场景表达结合的研究点和宏观Idea;
2) 介绍数字人表达结合的研究点和宏观Idea;
3) 会给学员布置三维表达和数字人表达相关的论文阅读;
4) 结合宏观Idea和相关论文进行算法设计和讨论。
宏观ldea介绍和具体Idea讨论(二)
——SLAM和无人驾驶篇
1) 介绍与SLAM结合的研究点和宏观Idea;
2) 介绍与无人驾驶结合的研究点和宏观Idea;
3) 会给学员布置SLAM和无人驾驶相关的论文阅读;
4) 结合宏观ldea和相关论文进行算法设计和讨论。
宏观ldea介绍和具体Idea讨论(三)
——场景理解篇
1) 介绍与语义场景表达结合的研究点和宏观Idea;
2) 介绍与大语言模型结合的研究点和宏观Idea;
3) 会给学员布置语义地图和LLM相关的论文阅读;
4) 结合宏观Idea和相关论文进行算法设计和讨论。
实验设计与讨论(一)
1) 结合讨论的ldea设计实验(给出循序渐进的Idea验证方式);
2) 对比实验、消融实验的常见开展方式介绍。
实验设计与讨论(二)
1) 针对学员所做课题进行针对性实验指导和讨论。
论文写作与投稿指导(一)
1) 结合自身投稿经验分享写作与投稿方法;
2) 结合自身审稿人经验分享写作与投稿技巧。
论文写作与投稿指导(二)
1) 针对学员所做课题进行针对性论文写作和投稿指导。
课后继续深化项目、完善论文
对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。
LONER system overview
Reconstruction of meshes on each sequence with the benchmarked algorithms. LONER and SHINE offer the most complete and detailed results. SHINE has slightly more complete geometry, noticeable in the top-left of the Quad images where LONER omits pillars captured by SHINE. However, LONER captures details better and has fewer artifacts
The depth images rendered from the MLP trained by LONER with different loss functions. The depth loss provides blurry geometry with limited training samples. The LOS loss with a fast decay rate provides more detailed geometry but worse hole-filling. In contrast, the LOS loss with a slow decay rate estimates the untrained region better but results in blurry geometry. The proposed JS loss combines the advantages of both fast and slow decay rates, which provides good hole-filling results while preserving geometry details
……更多实验结果可查看全文
熟悉Python基本语法,了解面向对象的基本思想,掌握基本的debug方法;
熟悉Pytorch构建和训练模型的基本方法;
具备深度学习基础。若有一定的3D视觉背景更加,但不强求;
对于没有以上基础的学员,课前可自学补充,或安排前置课程(配套赠送)。
学习经典前沿论文;掌握算法原理和实现;了解不同算法的优劣势;
深入研究领域创新点;
增强Coding能力;
获得“万能”写作大纲以及投稿建议;
完成论文初稿和完稿(投稿区位可结合学员个人目标,学员独作)。
梳理课题发展脉络和基本知识点:通过对代表性文章的讲解,帮助学员快速入门;
提供研究方向建议:针对学员的背景和经验提供合适的具体研究课题建议;
给出宏观idea,并和学员合作讨论具体做法:导师会首先根据行业发展动向给出学员们具有前景的idea。随后会给学员具体的文章来阅读,并指导学员如何阅读文章。通过分析和讨论已有/相关工作来制定具体的算法;
实验设计和论文写作指导:导师会基本提供开源项目供学员修改,而非从零开始完成项目,从而提升效率。导师会根据多年投稿和审稿人经验指导学员完成合格的论文;
答疑形式多样:课后1V1答疑群有问必答,结合案例、文字语音条等形式,可以与学员不定期进行视频课答疑。
✔ 开新题从0-1指导产出论文并发表
✔ 或基于学员现有项目/论文初稿指导二次修改并发表
(如课程论文/项目、毕业论文/项目)
除了小组班型,对1V1定制科研论文指导感兴趣的学员,也可以了解目前可进行排课的导师情况,并定制专属课题。更多指导方案可与文后小助手沟通(Dr.Research)。
CCF A/B/C分类可参考:“中国计算机学会推荐国际学术会议和期刊目录”
导师1. 斯坦福大学计算机科学博士 (本期新增)
【整体介绍】
博士期间研究方向集中于图形学、三维重建和几何理解。曾工作于微软,谷歌,华为和腾讯,从事环境和物体重建与生成相关工作。发表的第一作者论文被国际专家厂泛认可,获得SGP最佳论文奖,在计算机视觉和人工智能顶级国际会议/期刊发表论文20+篇(其中第一作者10+篇,通讯作者5+篇),包括CVPR(A类),ICCV(A类),ECCV(A类),NeurlPS(A类),TVCG(A类),SIGGRAPH(A类),IEEE VR,SGP(B类)等。并担任上述会议等审稿人。Google Scholar引用数累计2000+,GitHub Star累计超过 2500+。
【指导经验】
曾指导学员于CVPR,ICCV,ECCV,此三者被誉为世界公认三大顶级计算机视觉会议,以及其他会议发表论文共5+篇。
【指导方向】
【指导区位】
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
【特殊说明】
∨
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
∨
【整体介绍】
【指导经验】
【指导方向】
【指导区位】
……更多1V1科研论文导师,有待继续更新
声明:本文所用图片源自于网络,相关版权归原作者所有
博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验
TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。
TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!