讲座 | Multimodal Enhanced 3D Perception and its Applications

文摘 2024-09-05 17:01 广东

报告人：李镇

主持人：Prof. Hui Huang

日期：2024.09.06

时间：3:00pm

地点：深圳大学致真楼801

Abstract

As a basic 3D representation form, point cloud is active in various tasks such as autonomous driving, embodied AI, biomolecular structure prediction and design. Although the 3D perception has achieved good development, multimodal enhanced 3D perception is in urgent need, especially with LLM and VLM. Starting from the collection of point clouds, this talk first proposes a point cloud down-sampling and recovery algorithm based on reversible networks, which greatly improves the storage and communication efficiency. After we can effectively obtain point cloud data, we have studied classic tasks such as point cloud shape classification, point cloud 3D detection and tracking, and large scene 3D semantic segmentation, occupancy prediction and reconstruction from single modality to multimodal.

Our algorithm has achieved excellent results in many public international competitions, e.g., the novel prize for the occupancy prediction in CVPR24 Autonomous Grand Challenge, the first place in SemanticKitti semantic segmentation, the first place in CVPR2023 HOI4D segmentation, etc. In the end, we extended the 3D perception technologies to downstream applications, such as taking face generation, protein and small molecule/RNA binding prediction, etc.

Bio

李镇博士现任香港中文大学(深圳)理工学院助理教授，未来智联网络研究院助理院长，校长青年学者。李镇博士获得香港大学计算机科学博士学位 (2014-2018年)，他还于2018年在芝加哥大学担任访问学者。李镇博士荣获2023年吴文俊人工智能优秀青年，2021年中国科协第七届青年托举人才，2023CVPR HOI4D竞赛第一名，2022年SemanticKITTI语义分割竞赛第一名，2023年IROS 最佳论文Finalist，ICCV2021 Urban3D竞赛第二名，CASP12接触图预测全球冠军等。李镇博士还获得了来自于国家、省市级以及工业界的科研项目。

李镇博士领导了港中深的 Deep Bit Lab (https://mypage.cuhk.edu.cn/academics/lizhen/)，其主要的研究方向是3D视觉解析及应用 (包括但不限于点云解析，多模态联合解析)，深度学习等基础理论算法研究，并致力于将2D/3D人工智能算法推广应用于交叉学科，自动驾驶，工业视觉等场景中，在该方向著名国际期刊和会议发表论文60余篇，包括顶级期刊Cell Systems, Nature Communications, T-PAMI, TMI, TVCG, TNNLS等，以及顶级会议CVPR, ICCV, ECCV, NeurIPS, ICLR, IROS, ACM MM, AAAI, IJCAI, MICCAI等。李镇博士担任IEEE Transactions on Mobile Computing、IROS副编,以及众多顶刊、顶会的审稿人，李镇博士还是广东院士联合会脑科学与类脑智能专委委员，VALSE、MICS、中国图象图形学学会机器视觉专委会，3DV专委会等学术组织的委员。

深圳大学可视计算研究中心

Visual Computing Research Center

----------------------------------

https://vcc.tech

中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础，致力促进多个学科的深入交叉与集成创新，重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫

转载及合作：szuvcc@gmail.com

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2NDI1OA==&mid=2247517011&idx=1&sn=d50cb1aaabeb1d620d618076cb78ec29

深圳大学可视计算研究中心

深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平，以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础，促进多个学科的深入交叉和集成创新。详见官网: vcc.tech

最新文章

研究方向分享 | 人工智能

论文一起读 | 通过单样本个性化分割一切模型

讲座 | 跨域无人系统协同控制与分布式观测

如何提高科研效率？常用科研工具分享

论文一起读 | CNS-Edit: 通过耦合神经形状优化进行3D形状编辑

Flux | 开源文生图大模型

论文一起读 | Point Transformer V3: 简化设计，实现更快、更强的三维点云处理模型

讲座 | 额外连边对网络化无人系统集群协同性能的调控机理研究

论文一起读 | PDF: 基于概率驱动框架的开放世界三维语义分割

论文一起读 | CWF: 在高质量网格简化中整合弱特征

论文一起读 | BrepGen: 一种具有结构化隐式几何的边界表示生成扩散模型

2024「论文一起读」年度评选

喜报｜VCC三位博士生入选奖励计划

论文一起读 | 面向具身交互的通用3D物体理解

深圳大学计算机与软件学院2025直博生招生细则

ECCV 2024 | 基于卷绕数的多边形网格重建

玉兔东升照人间，嫦娥歌吟入荔园

讲座 | 3D前沿技术

ECCV 2024 | 基于马氏距离多视角最优传输的多视角人群定位

论文一起读 | PaperToPlace: 将指令文档转化为空间化和上下文感知的混合现实体验

讲座 | Multimodal Enhanced 3D Perception and its Applications

2024年度VCC优秀志愿者表彰

讲座 | 情智兼备数字人与机器人关键技术初探

ECCV 2024 | 具有语义的三维房屋线框生成

论文一起读 | 无需特定调优的个性化文本到图像扩散模型动画化

ECAI 2024 | 可适应点云模型: 通过适应二维视觉模型进行三维点云分析

论文一起读 | 基于共享注意力的风格对齐图像生成

可视计算研究中心师生党支部｜EmoSet荣获2024年度CCF优秀图形开源数据集奖

可视计算研究中心师生党支部｜党建引领聚合力科研创新谱新篇

论文一起读 | PartSLIP: 通过预训练的视觉语言模型对三维点云进行小样本部件分割

讲座 | 三维场景的标签高效学习和细粒度感知

SIGGRAPH 2024 | 基于空间和表面对应场的交互迁移方法

讲座 | Dynamics of an SIR Model on Complex Networks

讲座 | 复杂网络的结构识别与优化算法

论文一起读 | 基于接触信息微调的Transformer实现人-物联合重建

SIGGRAPH 2024 | Split-and-Fit: 基于维诺划分的边界表示学习方法

论文一起读 | 三维扩散策略: 基于简单3D表征的广义视觉运动策略学习

可视计算研究中心师生党支部｜党建引领凝思想科研攻关展力量

可视计算研究中心师生党支部｜2024毕业生风采录

论文一起读 | DINOBot：基于视觉基础模型检索和对齐的机器人操控

讲座 | Vehicle Localization by Ground-to-Aerial Image Matching

讲座 | 大语言模型的推理能力探索

论文一起读 | MeshGPT: 基于仅解码器注意力模型的三角网格生成方法

论文一起读 | 用于零次肖像视角生成的可控扩散模型

SIGGRAPH 2024 | LGTM: 局部到全局的文本驱动的人体动作扩散模型

万物向阳，踏实生长 - 暨闫子豪博士后出站答辩

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉