时间:2024年10月18日(周五)10:00-12:05
地点:新疆国际会展中心五层报告厅
简介:在大规模基础模型取得重大进展的推动下,计算机视觉领域经历了深刻的变革。计算机视觉领域的变革浪潮前沿是视觉模型,例如Vision Transformer(ViT),通过自注意力机制来理解图像,引领了图像理解范式的转变。同时,跨语言图像预训练(CLIP)框架提出了一种新的方法,通过利用图像-文本对数据集来促进视觉-语言理解。此外,Segment Anything Model(SAM)和GPT-4V为视觉模型赋予了交互式语义分割的功能。这些进展不仅突显基础模型理论的重要性,而且还提供了具体的实现路径,重塑计算机视觉的格局。然而,视觉基础模型的研究方兴未艾,如何在实际应用场景中产生更大的价值,值得我们进一步探索。基于此,中国图象图形学学会主办的英文学术期刊Visual Intelligence将在本次大会上组织“视觉基础模型及其前沿应用”专题论坛,旨在将领域内相关研究者聚集在一起,交流目前视觉基础模型研究和技术应用的最新进展和未来发展趋势,对其中一些共性、难点问题进行交流和深入探讨。
罗斌,安徽大学计算机科学与技术学院教授、博士生导师,安徽省学术技术带头人,安徽省模范教师。现任中国图象图形学学会(CSIG)常务理事、安徽省计算机学会监事长。曾受聘英国电信公司短期研究员、美国佛罗里达技术学院客座教授、澳大利亚新南威尔士大学客座研究员、新加坡南洋理工大学客座教授、英国Stirling大学客座教授、英国York大学博士后研究员等。研究方向为模式识别与数字图像处理。代表性成果发表于IEEE TPAMI和CVPR等国际期刊和会议。任Visual Intelligence副主编和《安徽大学学报(自然科学版)》主编。
范登平,南开大学教授、博士生导师,计算机系主任、国家级四青人才。代表性论文:1篇NeurIPS workshop最佳论文、2篇CVPR最佳论文提名、5篇热点论文、10篇TPAMI,谷歌引用2.1万,H指数53。担任IEEE TIP、Visual Intelligence等国际期刊编委,CVPR、NeurIPS等国际顶会领域主席,入选斯坦福全球前2%顶尖科学家榜单。
报告题目:具身视觉感知与学习
报告摘要:面向物理实体机器人的视觉行为感知与学习是具身智能研究的重要一环。本次报告将汇报我们研究组在通用机器人自由抓取建模上所展开的相关研究,包括机器人6DOF抓取建模、机械灵巧手抓取建模、动态抓取与多机器人协作、机器人行为质量评估等初步研究成果。
个人简介:郑伟诗,中山大学计算机学院教授、副院长,教育部“长江学者奖励计划”特聘教授,英国皇家学会牛顿高级学者,教育部机器智能与先进计算重点实验室主任。他长期研究协同与交互分析理论与方法,解决人体建模和机器人行为的视觉计算问题。担任IEEE TPAMI、Visual Intelligence等期刊的编委。主持承担国家级重点类项目和人才项目5项、广东省自然科学基金委卓越青年团队(负责人)项目等。获国家教学和省部级科技奖励6项。
王兴刚教授
华中科技大学
报告题目:低复杂度视觉基础模型研究
报告摘要:Transformer 在视觉和多模态基础模型领域已取得巨大成功,但其计算复杂度随输入序列长度的增加而呈二次增长。因此,探索低复杂度的视觉和多模态基础模型成为一个核心问题。本报告将介绍我们利用 Mamba、Gated Linear Attention 等新机制构建低复杂度视觉基础模型的初步研究,以及如何运用这些新型网络实现计算高效且表征能力强的视觉理解和内容生成模型。
个人简介:王兴刚,华中科技大学电信学院教授、博士生导师,入选国家级青年人才计划,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编。主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用3万余次,其中一作/通讯1000+引用论文5篇,入选Elsevier 2023中国高被引学者。担任CVPR、ICCV、ICIG等会议领域主席,Machine Vision and Application等期刊编委。入选中国科协青年人才托举工程,获湖北青年五四奖章、CSIG青年科学家奖,吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等,指导学生获2022年全国“互联网+”大赛金奖、2023年挑战杯“揭榜挂帅”专项赛全国一等奖。
上海人工智能实验室青年科学家
报告题目:视觉语言大模型的研究与应用:通过开源套件缩小与商用多模态大模型的性能差距
报告摘要:随着大语言模型的兴起,多模态大模型也取得了显著进步,推动了复杂的视觉语言对话和交互,弥合了文本与视觉信息之间的鸿沟。然而,现有的开源模型与商用闭源模型(如GPT-4o和Gemini 1.5 Pro)相比,在模型性能上仍存在显著差距。本报告将探讨图文多模态大模型的基本原理和技术,探索如何利用开源套件构建强大的多模态大模型,研究如何通过渐进式策略扩展开源多模态模型的性能边界,以缩小开源模型与商业闭源模型在多模态理解方面的能力差距。
个人简介:王文海,上海人工智能实验室青年科学家。南京大学博士,香港中文大学博士后,上海人工智能实验室“书生”系列视觉和多模态模型核心开发者。研究方向为视觉基础模型,在IEEE TPAMI、CVPR、ICCV、ECCV、ICLR、NeurIPS等国际会议和期刊发表论文40余篇,其中20篇为一作/共同一作/通信作者。研究成果获得了超过2万次引用,单篇最高引用超3000次。研究成果分别入选CVPR 2023最佳论文,世界人工智能大会青年优秀论文奖,CVMJ 2022最佳论文提名奖,两次入选ESI高被引论文(前1%)和热点论文(前0.1%),6次入选Paper Digest CVPR、ICCV、NeurIPS、ECCV年度十大最具影响力论文。入选斯坦福大学2023年度全球前2%顶尖科学家,中国图象图形学学会优博提名,世界人工智能大会云帆奖。担任Visual Intelligence编委,IJCAI 2021的高级程序委员会委员,以及多个顶级国际期刊和会议的审稿人。
PRCV2024简介
本届会议旨在汇聚国际国内模式识别和计算机视觉领域的广大科研工作者及工业界同行,分享最新理论研究进展和技术研发成果。通过此次会议,能加强本领域学术界和企业界进行深入的“产学研”交流与合作,从而进一步促进模式识别与计算机视觉领域的协同创新。
大会官网:
http://www.prcv.cn/
来源:Visual Intelligence公众号