可视媒体包含数字图像、视频、三维场景。生成式人工智能正在赋能可视媒体的高效高质量生成,推动相关领域的发展。本专题以6个导论报告形式涵盖可视媒体生成的基本原理和方法、图像与视频生成和三维模型与数字人的生成内容,带领学员感受可视媒体生成的发展。
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCF ADL第155期
主题 可视媒体生成基础与前沿
2024年12月20日-22日 北京
CCF学科前沿讲习班ADL155《可视媒体生成基础与前沿》,将系统地讨论可视媒体生成的基本原理和实现方法、图像生成、视频生成和三维模型与场景的生成。学员经过本次讲习班的学习,能够系统地了解可视媒体生成的前沿技术,感受生成式人工智能的飞速发展,同时开阔科研视野,增强思考与实践能力。
讲习班邀请了6位来自国内著名高校活跃在前沿领域的专家学者做主题报告。第一天,清华大学穆太江助理研究员介绍深度学习基础与计图编程相关内容,南开大学程明明教授介绍高效能个性化图像生成内容。第二天,中国科学院自动化研究所刘静研究员就多模态大模型研究与实践展开深入探讨,北京大学袁粒助理教授将介绍从视频生成到理解与生成统一架构。第三天,重庆大学秦红星教授将介绍从抛雪球到高斯泼溅及其原理解析,清华大学徐枫副教授将介绍基于便捷设备的数字人构建相关内容。通过三天教学,旨在带领学员实现对可视媒体从基本原理,到图像生成、视频生成和三维模型与数字人生成的全面认识与深刻理解。
学术主任:周 昆 教授 浙江大学/高 林 研究员 中国科学院计算技术研究所
主办单位:中国计算机学会
本期ADL主题《可视媒体生成基础与前沿》,由浙江大学周昆教授和中国科学院计算技术研究所高林研究员担任学术主任,邀请到穆太江(助理研究员,清华大学)、程明明(教授, 南开大学)、刘静(研究员,中国科学院自动化研究所)、袁粒(助理教授,北京大学)、徐枫(副教授,清华大学)和秦红星(教授,重庆大学)6位专家做专题讲座。
活动日程:
2024年12月20日(周五) | |
9:00-9:10 | 开班仪式 |
9:10-9:20 | 全体合影 |
9:20-12:00 | 专题讲座1:深度学习基础与计图编程 穆太江,助理研究员,清华大学 |
12:00-14:00 | 午餐 |
14:00-17:00 | 专题讲座2:高效能个性化图像生成 程明明,教授,南开大学 |
2024年12月21日(周六) | |
9:00-12:00 | 专题讲座3:多模态大模型研究与实践 刘静,研究员,中国科学院自动化研究所 |
12:00-14:00 | 午餐 |
14:00-17:000 | 专题讲座4:生成未必理解:从视频生成到理解与生成统一架构 袁粒,助理教授,北京大学 |
2024年12月22日(周日) | |
9:00-12:00 | 专题讲座5:从抛雪球到高斯泼溅及其原理解析 秦红星,教授,重庆大学 |
12:00-14:00 | 午餐 |
14:00-17:000 | 专题讲座6:基于便捷设备的数字人构建 徐枫,长聘副教授,清华大学 |
特邀讲者
穆太江
助理研究员,清华大学
讲者简介:穆太江,清华大学计算机系助理研究员,主要研究方向为计算图形学和计算机视觉等,主持了自然科学基金委青年科学基金项目和北京市科技计划项目任务,作为骨干参与了多项国家重大项目;在重要国际会议和期刊发表论文40余篇,其中3篇论文入选ESI热点论文;获首届“祖冲之”奖和Computational Visual Media最佳期刊论文奖等奖励;现担The Visual Computer编委,VCIBA期刊青年编委等。
报告题目: 深度学习基础与计图编程
报告摘要:以深度学习为代表的新一代人工智能技术已经成为科学研究和工程应用的新范式,已广泛渗透到各行各业。而深度学习框架作为人工智能的核心技术,负责深度学习模型的训练和推理,管理着人工智能应用所需要的大规模数据和模型,为上层算法和应用提供编程软件平台,同时统一调度和管理底层的计算资源,充分发挥计算潜力。本报告将介绍深度学习基础(包括深度神经网络的概念、训练方法),基于国产深度学习框架计图(Jittor)的深度学习编程以及计图对内容生的支持,为面向可视媒体内容生成的研究和应用提供基础编程框架。
程明明
教授,南开大学
讲者简介:程明明,南开大学杰出教授,新一代人工智能发展战略研究院副院长。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是人工智能、计算机视觉和计算机图形学,在SCI一区/CCF A类刊物上发表学术论文100余篇(含IEEE TPAMI论文38篇),h-index为93,论文谷歌引用5.4万余次,单篇最高引用5千余次,多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学:信息科学》编委。
报告题目: 高效能个性化图像生成
报告摘要:以大模型为代表的多模态图像生成技术可以有效地根据文本信息生成高质量的图像。然而,现有多模态生成技术在模型训练和个性化生成方面表现出较低的效率。例如,作为最近AI顶流的Sora模型虽然可以生成数十秒的流畅视频,但其训练代价相当高。Sora核心组件Difussion Transformer (DiT) 经常需要数十万次地迭代训练才能生成高质量的图像。此外,在图像生成中引入个性化的信息虽然富有吸引力,但是经典通过模型微调的形式经常耗费数十分钟才能得到高质量的结果。这些问题给生成式模型的大规模推广造成了障碍。本报告将介绍如何通过引入结构信息建模能力和个性化信息编码能力,有效地避免上述问题,并将该领域主流方法的性能提升2个数量级以上。
刘静
研究员,中国科学院自动化研究所
讲者简介:刘静,中国科学院自动化研究所研究员,国科大岗位教授,国家优青。研究方向多媒体分析与理解,带领团队研发了国际首个图文音三模态大模型“紫东太初”。相关成果曾获中国电子学会自然科学一等奖,北京市自然科学二等奖,中国图象图形学学会科学技术二等奖,世界人工智能大会卓越人工智能引领者奖等。已发表高水平学术论文近200篇,谷歌学术引用15000+次,SCI他引6000+次。荣获国际学术竞赛冠军十余项。
报告题目: 多模态大模型研究与实践
报告摘要:多模态大模型是针对图文音视等各种弱关联模态信息,利用自监督学习与模型微调等手段,建立多模态融合表征、关联协同与相互转化等,已被认为是实现类人感认知能力的重要途径,现已得到无论在学术界还是企业界的广泛关注。本报告主要包含以下内容:介绍多模态大模型的研究背景,回顾当前多模态预训练模型的关键技术与最新进展,以及对该领域未来发展趋势的展望与思考。
袁粒
助理教授,北京大学
讲者简介:袁粒,北京大学信息工程学院助理教授、博士生导师、国家高层次青年人才,入选2022年国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30等,主持国家科技创新2030重大项目课题和国自然基金等。研究方向为多模态深度学习,代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架,在国际期刊和顶会上发表论文50余篇,包括Nature Communications、IEEE TPAMI/CVPR等,代表性一作论文单篇被引两千余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。
报告题目: 生成未必理解:从视频生成到理解与生成统一架构
报告摘要:近几年以视觉-语言双模态为主的视频理解和生成领域蓬勃发展。当前主流视频多模态理解模型主要是借助大语言模型作为理解和逻辑推理的“中枢”,以自回归式Transformer为主干模型,而视频多模态生成仍然以扩散式Transformer (Diffusion Transformer)或者Diffusion ConvNets作为主要模型。所以视频多模态理解和生成在两条不同的技术路径上发展,当前已有的视频理解和生成一体架构大部分是依靠不同架构“搭积木”方式实现,而没有原生的统一架构。要实现视频生成和理解统一的多模态架构,需要探索视频生成的自回归式路径而非当前主流的扩散式生成,本次报告将首先介绍视频生成的基本原理,以及团队的视频生成开源模型Open-Sora Plan,然后探索视频生成的自回归式路线,将视频生成往多模态理解路线上统一,然后探讨未来生成理解可能的统一架构。
秦红星
教授,重庆大学
讲者简介:秦红星,男,博士,教授,博士生导师。2008年获上海交通大学博士学位,2008年至2009年于美国罗格斯新泽西州立大学从事博士后研究工作。主要研究方向为计算机图形学、三维视觉、可视化与可视分析。在ACM TOG,IEEE TVCG、CGF等国际著名期刊发表30余篇;取得授权专利15项;作为负责人先后主持国家自然科学基金项目3项,国家重点研发子课题1项目,重庆市基金2项,横向项目5项;作为骨干成员参与国家自然科学基金重点项目、重庆市重点项目等多项;指导学生参加科技竞赛多次获得一等奖。
报告题目: 从抛雪球到高斯泼溅及其原理解析
报告摘要:神经辐射场表达为场景重建与渲染建立了新的管线,为计算机图形学的发展提供了新的范式。本课程将从体数据可视化出发,从光线传输与几何表达两方面探究Nerf和Gaussian Splatting的技术原理,解析Nerf与Gaussian Splatting技术发展的关键点,展望Nerf和Gaussian Splatting发展的方向。
徐枫
长聘副教授,清华大学
讲者简介:徐枫,清华大学软件学院长聘副教授,博士生导师。研究方向包括人工智能、虚拟/增强现实、智慧医疗等。相关工作发表在Nature Medicine, Lancet Digital Health, NEJM AI, Cell Reports Medicine, PRL,ACM Siggraph, CVPR等国际权威期刊和会议上。担任CCF A类期刊IEEE TVCG编委,会议Siggraph、Siggraph Asia程序委员,ICCV领域主席,担任中国人工智能学会副秘书长,中国人工智能学会脑科学与人工智能专委会副主任委员,中国电子学会虚拟现实分会副主任委员。获得中国图象图形学学会技术发明一等奖(第1发明人)。(主页:http://xufeng.site)
报告题目: 基于便捷设备的数字人构建
报告摘要:数字人构建是计算机图形学中的重要研究问题,广泛应用于电影、游戏中的角色动画制作。随着相机等感知设备性能与人工智能等技术的不断提高,数字人构建从依赖专业设备、复杂计算逐渐便捷化、轻量化,未来有希望下沉到终端应用,普通用户也有可能使用日常采集和计算设备实现数字人构建。本报告围绕基于便捷设备的数字人构建技术,对数字人的几个重要部分,即面部、手部、肢体进行分别叙述,介绍不同部分的不同挑战难题,各类解决方案的基本思想以及最新的前沿趋势。希望通过本报告使听众了解数字人技术,激发听众对数字人技术未来发展的思考。
学术主任
周昆
教授,浙江大学
CCF常务理事、计算机辅助设计与图形学专委会主任,浙江大学计算机学院教授,国际计算机学会会士 (ACM Fellow),国际电气电子工程师协会会士 (IEEE Fellow)。1997年获浙江大学工学学士学位,2002年获浙江大学工学博士学位,2007年入选教育部长江学者特聘教授,2008年获国家杰出青年科学基金,国家自然科学基金创新研究群体负责人。现任浙江大学计算机辅助设计与图形系统全国重点实验室主任。
高林
研究员,中国科学院计算技术研究所
高林,中国科学院计算技术研究所研究员,博士生导师,泛在计算系统研究中心副主任,入选国家自然科学基金委优青、北京市杰青、英国皇家学会牛顿高级学者。围绕着计算机图形学和生成式人工智能开展研究工作,发表高水平论文100余篇。获得亚洲图形学会青年学者奖、中国人工智能学会优秀青年奖,CCF技术发明一等奖,CCF CAD&CG 开源软件奖等奖励。
时间:2024年12月20日-22日
地址:北京•中科院计算所四层报告厅(北京市海淀区中关村科学院南路6号)
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2024年12月18日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。
3、咨询邮箱 : adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、点击报名链接报名:
https://conf.ccf.org.cn/ADL155
CCF推荐
【精品文章】
点击“阅读原文”,立即报名。