转码技术学习-学员招募 | 三维视觉与3D-AIGC的学术研究与实践应用(学习计算机技术+入门论文写作)

文摘   2024-05-14 09:30   中国香港  

中国计算机学会(CCF)作为国内的权威评定机构,CCF推荐的高水平学术期刊/会议,是当下计算机领域对研究成果的主流参考标准之一,也被很多科研机构、高校、及大厂企业作为招聘标准。同时,因为计算机学科的特殊性,如学界和工业界联系非常紧密、技术迭代速度快,相比于录用周期长的期刊,高频率高质量且带有交流性质的顶级会议有非常高的认可度


此外,不仅限于CCF A/B/C类的划分体系,具有国际顶级期刊/会议的产出成果积累,在不同国家、院校和不同研究评价体系下都是具有绝对竞争优势的“硬通货”在竞争激烈的环境中,高价值助力🔺博士申请加分项🔺硕士申请&保研加分项🔺奖学金申请🔺转行&转专业项目积累🔺互联网大厂/高校研究型职位的求职履历等等


“转码研究课题”系列也将一一解决学员们在转方向时的各项困扰!

📍高效补充基础、攻克技术阻碍

📍优化学习曲线、丰富实践经验

📍积累项目产出、增加研究成果

📍突破资源限制、获得前辈支持

换赛道转行-转码系列小班课题

三维视觉与3D-AIGC

的学术研究与实践应用


结合3D图形学、计算机视觉与深度学习领域
深入探索"3D分割、3D重建、3D生成"技术
[研究项目积累+论文写作入门]

2024·新课题招募

1V12授课班型+1V1项目答疑


导师介绍




美国CS

名校博士


斯坦福大学计算机科学博士

Stanford与MIT、CMU一同被誉为计算机强校前三甲


博士期间研究方向集中于计算机图形学、三维重建和几何理解。曾工作于微软、谷歌、华为和腾讯,从事环境和物体重建与生成相关工作。


发表的第一作者论文被国际专家广泛认可,获得SGP(Symposium on Geometry Processing)最佳论文奖,在计算机视觉和人工智能国际顶级会议/期刊共发表20+篇论文,其中作为第一作者10+篇,通讯作者5+篇,发表刊物具体包括CVPR(A类),ICCV(A类),ECCV(A类),NeurlPS(A类),TVCG(A类),SIGGRAPH(A类),SGP(B类),IEEE VR等。并担任上述会议等多本刊物的审稿人。Google Scholar引用数累计2000+,GitHub Star累计超过 2500+。


过往学员指导案例

曾指导学员于CVPR,ICCV,ECCV(此三者被誉为世界公认三大顶级计算机视觉会议)、以及其他会议共发表5+篇论文。


其他论文指导形式选择(1V1定制)

除了小班课题,本期导师也接受1V1定制论文指导,可合作的领域有:SLAM (Simultaneous Localization and Mapping-即时定位与地图构建),几何重建,三维表征,环境理解,物体生成;指导学员论文的产出级别将集中于CCF A类/SCI一区



课题简介


1
方向介绍

3D Vision是一门专注于三维视觉技术的综合性课程,旨在培养学员掌握现代3D图形学、计算机视觉及深度学习等相关领域的知识技能。从三维重建、理解到近期热门的AIGC和具身智能(Embodied AI,即像人一样能与环境交互感知,自主规划、决策、行动、并具备执行能力的机器人/仿真人),此领域一直是视觉研究的重要基础和宝藏。3D-AIGC(3D建模、人工智能、计算机图形学)是当今科技领域中最具潜力和发展前景的交叉学科。随着计算能力的提升和数据量的爆炸式增长,3D-AIGC在许多方面都取得了突破性的进展。


本课程通过理论与实践相结合的方式,引导学员在基础3D图形学知识、识别、重建、生成等方面获得深入理解。具体而言,本课程内容丰富并涵盖整个领域的关键—3D数据表征、三维重建、识别与理解、生成式3D四大内容,与学员一起调研领域前沿的论文,分析当下研究的热点和方法论,并提供3D生成相关的见解和思路,同时也协助各位理解和掌握计算机领域的学术研究基本逻辑与学术写作方法。


图片来源:Liu, Y., Li, X., Li, X., Qi, L., Li, C., & Yang, M. H. (2023). Pyramid Diffusion for Fine 3D Large Scene Generation. arXiv preprint arXiv:2311.12085.


2
具体研究方向
方向1

[ 三维理解 ]

3D Understanding based on Vision Foundation Models

  • 结合视觉信息推进更优的3D分割方法;

  • 结合最新的视觉网络/几何信息推进更优的位姿识别方法。

方向2

[ 三维重建 ]

3D Reconstruction based on the MVSNet Method

  • MVSNet结合最新的视觉信息网络联合推进语义的识别与重建方法。

方向3

[ 三维生成 ]

3D Content Generation with Novel View Synthesis

  • 探索使用不同的视觉信息载体作为新视角生成的结果,对于最终内容重建的影响;

  • 探索不同的参数化投影空间对三维重建生成质量的帮助;

  • 使用前沿的图像生成方法改进和增强三维内容生成的质量和丰富性;

  • 基于场景的分割,结合视觉模型上色。

方向4

[ 三维生成 ]

3D Generation with 3D Foundation Models

  • 视觉适配器Vision adapter to 3D foundation models。

方向4

[ 三维设计 ]

3D Scene Design by Diffusion and Scene Analysis

  • 结合Diffusion场景生成的空间能力和3D识别能力,进行场景级物体摆放设计;

  • 平面图Floorplan生成与理解。



可滑动翻阅,图片来源:Chen, R., Liu, Y., Kong, L., Chen, N., Zhu, X., Ma, Y., ... & Wang, W. (2024). Towards label-free scene understanding by vision foundation modelsAdvances in Neural Information Processing Systems36.


3
可能涉及的创新点与对应会议/期刊

参考信息如:“中国计算机学会推荐国际学术会议和期刊目录”

本课程推进学术前沿的新颖ideas,包括但不限于:

  • 联合2D-3D并充分利用视觉大模型的3D分割;

  • 新的几何特征/参数空间用于更优的3D重建;

  • 利用视觉adapter丰富3D的生成;

  • 全新的3D任务与探索……欢迎学员提出其他感兴趣的研究想法。


论文产出预期为计算机视觉与图形学的公认顶级刊物,如:

  • CCF A类-CVPR,国际计算机视觉与模式识别会议;

  • CCF A类-ICCV,国际计算机视觉大会;

  • CCF A类-ECCV,欧洲计算机视觉大会;

  • CCF A类-SIGGRAPH,国际计算机图形和交互技术大会……也可以投递其他顶级会议或期刊平台,欢迎学员提出投稿想法与导师交流。

CVPR、ICCV、ECCV、SIGGRAPH 2024(可投递下一届)


CVPR 2024-Call for Paper的论文招募主题参考


课程时长与形式


课程人数

全程由本期导师进行课上讲授与课下答疑、带领学员完成研究项目与学术论文。



章节1-章节14

12位(及12位以内)学员/班,师生实时指导(非录播),并配有1V1答疑群;涵盖技术学习、课后练习、文献整理、细化定题、模型实现、实验进阶、及论文整体初稿;


章节14-可继续完善实验/论文

1位学员/班,即后续为师生1对1指导;对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。

课程周期

章节1-章节14

结合组内学员的时间安排,每周固定指导时间,按1个章节/周的进度,共14周完成14个章节,即该阶段周期为3-3.5个月;


章节14-可继续完善实验/论文

学员根据个人完成进度,与导师反馈问题、提交阶段性稿件并完成最终的论文定稿。结合学员自身可投入的时间量、项目难度等,可在1-2个月内加快完成,该阶段最长可至2.5个月。

适合学员

在计算机图形学、人工智能、虚拟现实、增强现实等方向有学习或研究经验的学员;


对于非以上所列背景的学员(如转方向/转专业),可根据“课题简介”在课前调研所涉及的技术与应用情况;


不限于在校生或在职人员,但个人时间分配情况需尽力跟上课程节奏。


课程安排


实际课程安排和大纲将在开课后结合当期学员情况稍作调整。整体分为4个阶段:

Step1. 科研基础搭建: 构建知识体系,建立思维逻辑;

Step2. 强化理论与实践: 结合理论学习及代码实践,由学到做,夯实基础;

Step3. 深化拓展创新能力: 学习baseline逻辑,指导baseline跑通与改进;

Step4. 前沿掌握精通: 掌握科研前沿算法及理论热点,完善知识面结构。


章节1

Introduction技术概述与研究兴趣探讨


1师生初次meeting,基于学员背景与个人学习目标、探讨研究兴趣方向与整体项目计划;

2) 讲解3D Vision的技术概述与应用。

章节2

3D数据内容与表征


1让学员了解各类3D数据表征、各自转化的方法和各自的优劣;

2) 完成技术练习:网格重建。

章节3

相机模型、渲染、几何重建


1理解如何渲染模型和重建几何信息;

2) 完成技术练习:渲染scannet的信息。

章节4

3D视觉的学术问题与Idea创新


1理解分割类、识别类、重建类、生成类的问题;

2) 完成学习目标:学员个人研究项目idea讨论与定题确认1.0。

章节5

单目图片的几何信息学习与Idea分析


1详解单目几何信号学习的论文资料和方法论;

2) 完成技术练习:FrameNet/NOCS*;

NOCS-Normalized Object Coordinate Space是用于物体姿态估计和三维物体重建的技术,它通过将物体的几何信息表示为归一化的相对坐标,在单目图片中实现对物体姿态的精确估计;

3) 完成学习目标:学员个人研究项目idea讨论与定题确认2.0。

章节6

多目图片的几何重建学习与Idea分析


1详解多目几何重建的论文资料和方法论;

2) 完成技术练习:MVSNet*

MVSNet-Multi-View Stereo Network,用于多视角立体匹配的深度学习方法,该方法可以通过多个视角的图像推断出场景的深度信息,从而实现三维立体重建;

3) 完成学习目标:学员个人研究项目idea讨论与定题确认3.0。

可滑动翻阅,图片来源:Fu, X., Yin, W., Hu, M., Wang, K., Ma, Y., Tan, P., ... & Long, X. (2024). GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image. arXiv preprint arXiv:2403.12013.



章节7

几何学习网络


1详解重要的几何学习网络;

2) 完成技术练习:MinkowskiEngine。

章节8

几何生成网络


1详解生成几何网络的主要著作;

2) 完成技术练习:DeepSDF*/LAS-Diffusion*/Photomat*。

DeepSDF,利用神经网络学习三维几何形状的表示和重建的方法。它将点坐标映射到其表面的有向距离函数,可用于生成高质量的三维形状重建和形状编辑。
LAS-Diffusion,用于快速渲染的图像生成方法。它通过学习近似光照扩散的过程,将低分辨率的输入图像转换为高分辨率的输出图像,实现高效重建和增强图像细节。
Photomat,基于人工智能技术的图像编辑技术。它能够对图像中的光照进行调整,包括光照强度、方向和颜色等方面的修改。可用于照片增强、光照效果调整和虚拟场景渲染等应用。
章节9

NeRF神经辐射场


1详解NeRF神经辐射场*的技术应用与运行实践;

NeRF-Neural Radiance Fields,该技术可学习特定场景的几何形状、物体和角度,再以从新的视角呈现逼真的三维视图,自动生成合成数据以填补空白。涉及模拟、游戏、媒体和物联网(IoT)应用程序的行业都需要三维图像,以使数字交互更加逼真和准确,NeRF也是当下的热门技术之一。

2) 完成技术练习:Nerf-ACC*。

NeRF-ACC 是由NerfStudio团队开发的一个开源项目,可提供高效、易于使用的NeRF渲染框架,可提高训练速度和渲染质量,同时保持灵活性,以适应不同的任务和数据集。

图片来源:Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2021). Nerf: Representing scenes as neural radiance fields for view synthesis. Communication of the ACM, 65(1), 99-106.


Google’s Immersive View

Google Co-registration



章节10

Diffusion-SDS 扩散模型-分数蒸馏采样


1详解通过Diffusion如何蒸馏出3D物体生成;

2) 完成技术练习:threestudio。

章节11

Modern Topics新兴主题与应用视角


1讲解NVS(Novel View Synthesis,新视角合成),LRM(Large Reconstruction Model,从单个图像到大型3D重建模型),ATISS(Autoregressive Transformers for Indoor Scene Synthesis,室内场景合成自动递减变异器等最新方向)。

章节12

论文写作与实验设计1.0


1针对于每位学员的具体选题方向,对其创新点和实验结果展现形式进行说明,设计论文结构,讲解论文写作关键点。

章节13

实验设计2.0


1基于每位学员的选题,对具体方法流程设计提供解释与答疑,推进实验部分的完成。

章节14

论文项目答辩及投稿指导


1指导学员选择合适的论文投稿平台,对选择投递会议的学员可说明一般参会情况;

2) 针对学员遇到的具体论文问题进行解释说明;

3) 对于仍有进度未完成的学员,将在1V1答疑群中继续项目……

补充+

继续深化项目、完善论文


对于在以上14个章节后,仍有实验或论文进度未完成的学员,可以在1V1答疑群中继续完善。

图片来源:Paschalidou, D., Kar, A., Shugrina, M., Kreis, K., Geiger, A., & Fidler, S. (2021). Atiss: Autoregressive transformers for indoor scene synthesis. Advances in Neural Information Processing Systems, 34, 12013-12026.


课程要求


熟悉Python基本语法,了解面向对象的基本思想,掌握基本的debug方法;

熟悉PyTorch构建和训练模型的基本方法;

具备机器学习基础;零基础学员在课前可自学补充,或安排前置课程(配套赠送)。

至少长期拥有一张16GB以上的显卡可供自用。


课程收获


学习经典前沿论文;掌握算法原理和实现;了解不同算法的优劣势;

深入研究领域创新点,细化个人研究兴趣并增加研究项目履历;

增强Coding能力,由指导至逐步独立完成相关的复杂编程任务;

获得“万能”写作大纲以及投稿建议,可形成自己的写作方法论;

完成论文初稿和完稿(投稿区位可结合学员个人目标,学员独作)。


课程亮点


提供丰富的领域知识、探讨高创新性与高度可行的ldeas,可细化到方法论和实验方案;

课程力求避开繁琐的数学公式和过于空洞的原理,基于近两年顶级学术会议、顶级期刊的最新研究成果,且结合现实问题的角度,利用故事驱动模型;

1V1答疑群中的问题回复将结合案例、文字、语音条等形式,可以与学员不定期进行额外的线上meeting,高效率解决疑问。



换赛道转行-1V1科研论文指导

定制专属研究课题与论文规划

✔ 开新题从0-1指导产出论文并发表

✔ 或基于学员现有项目/论文初稿指导二次修改并发表

(如课程论文/项目、毕业论文/项目)

除了小组班型,对1V1定制科研论文指导感兴趣的学员,也可以了解目前可进行排课的导师情况,并定制专属课题。更多指导方案可与文后小助手沟通(Dr.Research)。


CCF A/B/C分类可参考:“中国计算机学会推荐国际学术会议和期刊目录”

 导师1. Top3高校计算机科学博士

【整体介绍】

博士期间研究方向集中于NLP自然语言处理方向,主要研究方向为文本数据挖掘,知识图谱,推荐系统等。目前于国内C9高校担任研究员,读博期间曾于阿里巴巴、美团等公司进行算法研究实习。主要从事数据挖掘、自然语言处理、大模型推理优化等方向研究,在情感分析、实体抽取、实体对齐、领域自适应、多模态摘要、多模态情感分析等方向均有相关的科研产出。在人工智能领域的国际会议/期刊共发表29篇论文,其中顶级学术会议与顶级期刊共20余篇,如包括KDD(A类),SIGIR(A类),ACL(A类),WWW(A类),AAAI(A类),IJCAI(A类),IEEE TKDE(SCI Q1 中科院二区),ACMTOIS(SCI Q2 中科院二区),TKDD等。并担任AAAI,IJCAI,WWW,ACL,KDD,SIGIR,EMNLP(B类)等20余个顶级学术会议的审稿人。


【指导经验】

曾指导学员于AAAI(A类),IJCAI(A类),WWW(A类),ACL(A类),KDD(A类),SIGIR(A类),EMNLP(B类)等顶级会议共发表20余篇论文,当下学员在投共10余篇论文。


【指导方向】

NLP自然语言处理/AI人工智能方向:大语言模型,情感分析,文本摘要生成,问答/对话系统。


【指导区位】

CCF A类 / SCI一区及以下
 导师2. Top2高校计算机博士

【整体介绍】

博士期间研究方向集中于机器学习,计算机视觉,2D/3D AIGC,生成模型,多模态大模型。于Apple担任算法工程师,负责 AIGC相关工作。曾获得国家奖学金。以第一作者发表的论文被国际专家广泛认可,获得CVPR和KDD Oral提名等。在计算机视觉和人工智能顶级国际会议/期刊共发表5篇论文,包括CVPR(A类),KDD(A类),ICLR等。并担任CVPR(A类),ICCV(A类),ECCV(A类),此三者被誉为世界公认三大顶级计算机视觉会议;ICML(A类),NeurlPS(A类)等审稿人。


【指导经验】

曾指导学员于CVPR(A类),ICLR会议发表3篇论文,当下学员在投共2篇论文。


【指导方向】

计算机视觉,三维计算机视觉(NeRF等),机器学习,2D/3D AIGC(文生图,文生视频,文生3D等),Diffusion等生成模型,多模态模型。


【指导区位】

CCF A类 / SCI一区
 导师3. 北美Top10应用数学博士

【整体介绍】

同为北美互联网大厂研究员。博士期间为计算机视觉与优化,人工智能交叉方向。过去五年累计发表论文15篇,其中包含CCF-A类13篇,如CVPR(A类),NeurIPS(A类),ICML(A类),ICLR,其中作为第一作者共6篇,并担任CVPR,NeurlPS,ICML,ECCV(A类),ICCV(A类),ECML(B类),ICLR,AISTATS等审稿人数十次。


【指导经验】

近两年指导博士生及大厂实习生共发表5篇顶级会议论文,包括NeurIPS(A类),CVPR(A类),ICLR等计算机顶级学术会议。


【指导方向】

深度学习视觉方向,扩散模型,各类图像生成任务(超分、复原、补图、扩图等)以及相应高效设计与训练策略。


【指导区位】

CCF A类 / CCF B类


【特殊说明】

北京时间每周四、每周五上午9-12点可以排课

 导师4. QS全球Top10高校计算机博士(在读)
【整体介绍】
主要研究方向为数据导向的机器学习,联邦学习;曾于CMU卡内基梅隆大学与UC Berkeley加州大学伯克利分校参与访学与合作研究经历,具体如机器学习研究,联邦学习,多智能体机器学习系统的理论与实践。曾在商汤和蚂蚁均任职过算法实习岗,从事机器学习算法研究与实现。在ICML(A类),NeurIPS(A类),AAAI(A类),IJCAI(A类)等机器学习和人工智能顶级学术会议发表11篇论文,其中作为第一作者/共同第一作者共7篇,作为通讯作者共2篇。担任ICML,NeurIPS,ICLR,AAAI,IJCAI审稿人。Google Scholar引用累计400+;并获得IJCAI最佳论文,NeurlPS优秀审稿人2次,ICML优秀审稿人1次。

【指导经验】
曾指导学员于ICML(A类)发表2篇论文,AAAI(A类)发表1篇论文,NeurIPS(A类)发表1篇论文。


【指导方向】
机器学习/人工智能方向:机器学习理论,可信人工智能,鲁棒性,可解释性,公平性,多智能体系统,联邦学习,大模型/生成模型的各个研究方向。


【指导区位】
CCF A类

 导师5. 中国科学院人工智能博士

【整体介绍】

博士期间研究方向为推荐系统,信息检索方向。主要研究集中于跨域推荐,序列推荐,图推荐。在信息检索/数据挖掘领域的顶级会议/期刊如KDD(A类),SIGIR(A类),TOIS(A类)等发表8篇论文,其中作为第一作者共5篇。曾在字节跳动与腾讯担任算法实习生并具有真实业界实践经验。


【指导经验】

曾指导学员于KDD(A类),CIKM(B类)等学术会议发表3篇论文。


【指导方向】

推荐系统:包括序列推荐,跨越推荐,推荐公平性,图神经网络和图推荐等。


【指导区位】

CCF A类 / SCI一区及以下

 导师6Top3高校计算机科学博士

【整体介绍】

博士期间研究方向集中于计算机视觉,多模态学习,医学人工智能等。于互联网大厂担任算法工程师,主要从事 AI视觉,多模态方向的科研向研究。GitHub Star累计超过1k。以第一作者发表的论文被国际专家广泛认可,获得会议Oral四篇。在计算机视觉和人工智能顶级国际会议/期刊共发表9篇论文(其中第一作者共7篇),包括CVPR(A类),ICCV(A类),NeurIPS(A类),AAAI(A类),TPAMI(A类),MICCAI(B类)。并担任CVPR,ICCV,ECCV的审稿人,此三者被誉为世界公认三大顶级计算机视觉会议;以及TPAMI,IJCV(A类),ICML,NeurIPS,MICCAI等审稿人。


【指导经验】

曾指导学员于CCF A/B会议,SCI 一/二区发表4篇论文,当下学员在投共4篇论文。


【指导方向】

1) 计算机视觉方向:分割、检测算法创新和提点;
2) 多模态方向:大语言模型的推理和应用,指代性检测及分割,visual grounding等;
3) 医学人工智能方向:医疗影像的处理和分析,多模态医学数据的联合预测,计算机辅助诊断。


【指导区位】

CCF A类 / SCI一区及以下

 导师7. 国内Top985计算机博士

【整体介绍】

博士期间研究方向集中于计算机视觉领域,具体包括遥感目标检测与识别,神经网络压缩,嵌入式端人工智能模型部署等。已发表11篇论文,其中IET等国际领域顶级学术会议共3篇,以及IEEE TGRS(IEEE Transactions on Geoscience and Remote Sensing)、IEEE GRSL(IEEE Geoscience and Remote Sensing Letters)等顶级期刊论文共8篇,发表ESI计算机科学领域前1%高被引论文1篇。担任IEEE TGRS、IEEE GRSL、Remote Sensing等多个期刊审稿人。曾获得第八届中国国际“互联网+”创新大赛全国总决赛金奖(冠军)。


【指导经验】

曾指导学员于Remote Sensing(SCI Q1中科院二区)发表3篇论文,IEEE GRSL(SCI Q1中科院三区)发表2篇论文,IEEE TGRS(SCI Q1中科院一区)发表1篇论文。


【指导方向】

遥感目标检测与识别,目标分割,神经网络压缩


【指导区位】

SCI一区及以下

……更多1V1科研论文导师,有待继续更新


声明:本文所用图片源自于网络,相关版权归原作者所有

对课程感兴趣的同学,可在文后联系标框的小助手
"Dr.Research",微信号:Dr-research779




博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验

TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。


TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!


更多资讯/项目/服务详情
可长按二维码添加学究科研社的学术顾问进行微信预约


TechArt学究科研社
TechArt专注于建筑|城市|交互|艺术|人文|工程|计算机|机器人等跨学科的学术交流合作。我们不断聚集海内外知名学府的博士、教授及工业界专家等,研发创新的教学内容,为学员们提供硕士留学、博士申请、科研产出、工业实践等多方面的咨询服务。
 最新文章