2024年11月3日,中国图象图形学学会(CSIG)第八期优博论坛于华中科技大学顺利举办。本次论坛由中国图象图形学学会(CSIG)主办,由华中科技大学软件学院、CSIG武汉会员中心、CSIG青工委、CSIG文档图像分析与识别专委会、CSIG成像探测与感知专委会、CSIG青托俱乐部、CSIG优博俱乐部承办。华中科技大学白翔教授、刘禹良教授和武汉大学董燕妮教授组织本次论坛顺利召开,报告邀请到杜博教授、金连文教授、谢洪涛教授、苏厚胜四位领军学者,以及王文海博士、刘婧副教授、徐天阳副教授、廖明辉博士、余昌黔博士、蒋兴宇博士六位优博共10名讲者作精彩的学术报告,报告采用线下报告线上直播的方式同时展开,报名人数爆满,得到广泛的关注。论坛主席为刘禹良教授和董燕妮教授,刘禹良负责会议的主持。
图 1 会场合照
图 2 马惠敏教授代表学会致辞
报告开始,中国图象图形学学会副理事长兼秘书长马惠敏教授为大会献上了热情洋溢的致辞,希望大家能够充分利用这个机会,深入交流、互相学习,共同推动图像图形学领域的科技进步。
图 3 华中科技大学软件学院书记王士贤致辞
紧接着,华中科技大学软件学院党委书记王士贤对莅临会议的各位专家、老师和同学们表示了诚挚的欢迎。
图 4 马超教授回顾CSIG优博论坛发展历程
接下来,中国图象图形学学会优博俱乐部轮值主席马超教授为CSIG优博论坛的历程做了完整的回顾。优博论坛可以给诸多青年学者提供最前沿和很好的学习交流机会。
图 5 杜博教授作《大模型方法及其垂直应用研究》报告
前四场报告均来自于不同领域的领军学者展开。首场报告为杜博教授的《大模型方法及其垂域应用研究》。杜博教授首先介绍了大模型在人工智能领域的应用背景和发展趋势。随后,他详细探讨了大模型在遥感等特定垂直领域的应用。报告中,杜博教授分享了其团队在这些领域的最新研究成果,包括模型结构、数据集构造和性能评估等。最后,他总结了大模型在垂域应用中的挑战和未来发展方向,探讨了大模型在特定领域的应用及研究进展。
图 6 金连文教授作《通用人工智能时代的OCR》报告
金连文教授作了《通用人工智能时代的OCR》的报告。金连文教授首先回顾了OCR技术的发展历程,从传统的模板匹配方法到现代的深度学习方法。他详细介绍了通用人工智能背景下OCR技术的新挑战和新机遇,包括多模态数据融合、复杂场景下的文字识别等。报告中,金连文教授分享了其团队在古代文字识别等领域的研究成果,包括新的网络结构设计和多任务统一学习策略等。最后,他展望了OCR技术在未来的发展趋势和应用前景。
图 7 谢洪涛教授作《深度伪造的主动防御与被动检测技术》报告
谢洪涛教授作了《深度伪造的主动防御与被动检测技术》的报告。谢洪涛教授首先介绍了深度伪造技术的基本原理和应用场景,如虚假新闻生成、恶意攻击等。随后,他详细探讨了深度伪造的主动防御和被动检测技术。报告中,谢洪涛教授分享了其团队在这些领域的研究成果。
图 8 苏厚胜教授作《多智能体系统的分布式状态估计》报告
苏厚胜教授作了《多智能体系统的分布式状态估计》的报告。苏厚胜教授首先介绍了多智能体系统的基本概念和应用场景,如无人机编队、智能交通等。随后,他详细探讨了多智能体系统的分布式状态估计方法,包括分布式滤波器设计、通信协议优化和鲁棒性分析等。最后,他总结了多智能体系统在分布式状态估计中的挑战和未来发展方向。
图 9 王文海博士作《书生·万象多模态大模型的技术演进与应用探索》报告
接下来的六场报告均来自于CSIG的优博获得者。首先,王文海博士后作了《书生·万象多模态大模型的技术演进与应用探索》的报告。王文海首先介绍了多模态大模型的基本概念和技术背景,包括视觉、文本和语音等多种模态的融合方法。随后,他详细探讨了多模态大模型的技术演进,多任务学习方法和自监督学习策略等。报告中,王文海博士后分享了其团队在这些领域的研究成果,包括新的InternVL2模型设计和应用。最后,他展望了多模态大模型在未来的发展趋势和应用前景。
图 10 刘婧副教授作《跨模态视频动作定位研究》报告
刘婧副教授作了《跨模态视频动作定位研究》的报告。报告首先介绍了跨模态视频动作定位任务的背景和挑战,如多模态数据的异构性和复杂性。随后,她详细探讨了跨模态视频动作定位的方法和技术,包括多模态特征提取、时空建模和注意力机制等。报告中,刘婧副教授分享了其团队最新的时空建模框架和实验验证结果。最后,她总结了跨模态视频动作定位任务的未来研究方向和应用前景。
图 11 徐天阳副教授作《视觉多模态融合与感知》报告
徐天阳副教授作了《视觉多模态融合与感知》的报告。徐天阳副教授首先介绍了视觉多模态融合的基本概念和技术背景,包括图像、视频和文本等多种模态的融合方法。随后,他详细探讨了视觉多模态融合的技术方法,包括特征提取、特征对齐和多模态融合网络设计等。报告最后展望了视觉多模态融合技术在未来的发展趋势。
图 12 廖明辉博士作《视觉多模态大模型及其在UI理解中的应用》报告
华为终端BG技术专家廖明辉作了《视觉多模态大模型及其在UI理解中的应用》的报告。廖明辉首先介绍了视觉多模态大模型的基本概念和技术背景,包括图像、文本和语音等多种模态的融合方法。随后,他详细探讨了视觉多模态大模型在用户界面(UI)理解中的应用,包括界面元素识别、用户意图理解和交互行为分析等。报告中,廖明辉分享了其团队在这些领域的研究成果包括UI-Hawk等模型。最后,他对视觉多模态大模型在UI理解中的研究方向进行了总结。
图 13 余昌黔博士作《多模态理解生成的研究与应用》报告
昆仑万维高级算法专家余昌黔作了《多模态理解生成的研究与应用》的报告。余昌黔首先介绍了多模态理解生成的基本概念和技术背景,包括图像、文本和语音等多种模态的理解和生成方法。报告中,余昌黔分享了其团队的最新研究成果DiT-MoE,详细探讨了多模态理解生成的技术方法,包括特征提取、生成模型设计和多模态对齐等。最后,他展望了多模态理解生成技术在未来的发展趋势和应用前景。
图 14 蒋兴宇博士作《多场景自适应图像特征匹配算法研究与应用》报告
蒋兴宇首先介绍了多场景自适应图像特征匹配的基本概念和技术背景,包括不同场景下的图像特征提取和匹配方法。随后,他详细探讨了多场景自适应图像特征匹配的技术方法,包括特征提取、特征匹配和自适应调整等。报告中,蒋兴宇分享多场景匹配算法的设计与应用。对多场景自适应图像特征匹配技术在未来的发展趋势和应用前景进行了总结。
图 15 优博会议Panel环节学生向专家提问
马超教授、张鼎文教授、郑渤龙教授、高常鑫教授、徐天阳副教授、廖明辉博士、王文海博士参与了Panel讨论,主题为“导师如何在快节奏的当下培养学生做出高水平研究”。嘉宾们从导师和学生的角度出发,分享了培养优秀博士生的经验和建议。他们强调了结合个人兴趣与实验室优势的重要性,鼓励学生建立正确的科研心态,积极参与学术交流和合作,以提升自身的科研能力和创新能力。对于博士生的就业方向,专家门从学术界和业界两个方向分别进行了详细分析,与现场同学共同探讨。
图 16 董燕妮教授作会议总结
最后,董燕妮教授对全天的精彩报告和讨论进行了总结,回顾了各个报告的主要内容和亮点,并对出席本期论坛的各位老师和同学们表示感谢。她希望参会者能够继续关注和参与中国图象图形学学会的各项活动,鼓励更多的学生成为优博,共同推动图像图形学领域的发展。