近日,国际人工智能顶尖会议The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025) 论文录用结果揭晓,人工智能学院学院师生共计11篇论文成功被该会议录用。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。这次会议共收到破纪录的12,957篇有效投稿,录用率约23.4%。
UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer
刘德龙(北京邮电大学)、侯朝晖 (商汤科技)、詹明捷(商汤科技)、韩世浩(商汤科技)、赵志诚(北京邮电大学)、苏菲(北京邮电大学)
【论文简介】
为解决当前视频生成模型一致性差和图像质量下降的问题,提出了一种即插即用的统一帧组织器(UFO)插件。UFO无需修改原模型参数,通过自适应适配器显著提升了视频前景与背景的一致性和图像质量。UFO训练简单高效,支持风格化训练与模型间迁移。
Paper链接:
http://arxiv.org/abs/2412.09389
Code链接:
https://github.com/Delong-liu-bupt/UFO
Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection
陈梓宁(北京邮电大学)、罗杏双(北京邮电大学)、王伟秋(北京邮电大学)、赵志诚(北京邮电大学)、苏菲(北京邮电大学)、门爱东(北京邮电大学)
【论文简介】
针对分布外异常检测任务的分布偏移问题,提出了一种分布不变性的过滤补偿方案,包括分布相关特征补偿模块,缓解教师和学生网络的分布不一致现象;分布不变过滤器模块,过滤深层异常信息以捕获分布不变的正常样本特征。
Novel View Synthesis under Large-Deviation Viewpoint for Autonomous Driving
马鑫(北京邮电大学)、张吉光(中国科学院自动化研究所),鲁鹏(北京邮电大学)、徐士彪 (北京邮电大学)、潘成伟(北京航空航天大学)
【论文简介】
在自动驾驶中,视点偏离训练集的新视角合成面临复杂光照和纹理缺失区域的几何不一致问题。为此,我们提出基于极几何的光照模型,提升光场准确性并减少渲染伪影,同时采用基于平面单应性约束的几何优化方法,增强弱纹理区域的几何一致性。实验结果表明,该方法在视角偏离情况下显著提升了视图合成质量,优于现有的方法。
Controllable 3D Dance Generation Using Diffusion-Based Transformer U-Net
郭蒲源(北京邮电大学)、郝拓(北京邮电大学)、付温馨(北京邮电大学)、高迎明(北京邮电大学)、李雅(北京邮电大学)
【论文简介】
本文提出一种可控的音乐驱动舞蹈动作生成框架,利用二维关键点作为控制信号,使生成动作与之相似,同时也能够与音乐节奏相匹配。这不仅解决了现有方法缺乏控制力的问题,而且在未知音乐上也能够实现可控的动作生成。
Enhancing Vision-Language Models with Morphological and Taxonomic Knowledge: Towards Coral Recognition for Ocean Health
韩洪勇(北京邮电大学)、王微(北京邮电大学)、张高唯(北京邮电大学)、李明杰(国家海洋局)、王祎(北京邮电大学)
【论文简介】
珊瑚礁在海洋生态系统中发挥着至关重要的作用。然而,由于缺乏领域知识,CLIP等视觉-语言模型在处理细粒度的珊瑚识别任务时表现不佳。为此,本文章提出了包含16,659张图像及其分类标签(从界、科、属到物种)的珊瑚图像数据集,并为每个物种配备了形态学专家描述。进一步提出了CORAL-Adapter模型,将两种互补的珊瑚知识(生物分类学和珊瑚形态学)与CLIP的通用知识相结合。
Code链接:
https://doi.org/10.6084/m9.figshare.26702314.v1
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
姚泽斌(北京邮电大学)、冯方向(北京邮电大学)、李睿凡(北京邮电大学)、王小捷(北京邮电大学)
【论文简介】
本文提出了一种新颖的免训练文生图框架——Concept Conductor,其目标是在多概念定制化生成中确保视觉保真度及正确布局。Concept Conductor通过隔离多个定制模型的采样过程,避免不同概念之间的属性泄漏,并通过基于自注意力的空间引导来纠正错误的布局。此外,引入的概念注入技术利用形状感知的掩模来确定每个概念生成的区域,从而在最终图像中确保个性化概念的结构和外观的和谐。
Paper链接:
https://arxiv.org/abs/2408.03632
Code链接:
https://github.com/Nihukat/Concept-Conductor
VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis
陈志鹏(北京邮电大学)、杨兰(北京邮电大学)、齐勇刚(北京邮电大学)、张洪刚(北京邮电大学)、逄开岳(英国萨里大学)、李珂(北京邮电大学)、Yi-Zhe Song(英国萨里大学)
【论文简介】
人类在表达上的丰富性和深度远超现有图像生成技术的范畴。用户渴望一种更为灵活多变的工具,以迎合他们丰富多彩的创意需求。为应对这一挑战,VersaGen提出了一种多功能的图像控制生成方法,能够接受四种类型的视觉控制:i)单个视觉主体;ii)多个视觉主体;iii)场景背景;iv)上述三种的任何组合,或者完全没有控制。
Paper链接:
https://openreview.net/forum?id=fcnZ7SJS4m
Code链接:
https://github.com/FelixChan9527/VersaGen_official
Data with High and Consistent Preference Difference Are Better for Reward Model
林麒(北京邮电大学)、陆恒通(北京邮电大学)、袁彩霞(北京邮电大学)、王小捷(北京邮电大学)、江会星(理想汽车)、陈伟(理想汽车)
【论文简介】
人类反馈强化学习是大型语言模型的常用对齐方法。本研究提出一种新度量标准PD,通过估计Bradley-Terry模型的偏好概率差异进行偏好数据过滤,提高数据利用效率。实验表明,这种方法能提升RLHF和类RLHF方法的对齐性能。
A Systematic Exploration of Knowledge Graph Alignment with Large Language Models in Retrieval Augmented Generation
田时雨(北京邮电大学)、邢舒悦(北京邮电大学)、李星锐(北京邮电大学)、罗洋洋(北京邮电大学)、袁彩霞(北京邮电大学)、陈伟(理想汽车)、江会星(理想汽车)、王小捷(北京邮电大学)
【论文简介】
本文提出并探究了知识图谱与大语言模型结合时的对齐问题。分别从图变换和线性化两阶段进行系统性分析。研究发现,图的中心性,线性化的格式、顺序和模板对模型性能至关重要。通过优化这些因素,能使大模型在KGQA任务上平均提升7.3%。
XCotton: Advancing AI-enabled Hardware/software Integrated System forForeign Fiber Cleaning
张高唯(北京邮电大学)、王微(北京邮电大学)、王祎(北京邮电大学)
【论文简介】
为了解决在样本有限的情况下检测外来纤维的挑战,我们引入了与物体无关的文本提示模板,将先验语义知识引入文本提示模板,并且可以通过与外来纤维检测相关的辅助数据进行微调。提升了30%的清洁效率,同时能耗降低了47%。
VA-AR: Learning Velocity-Aware Action Representations with Mixture of Window Attention
魏江宁(北京邮电大学)、秦立雄(北京邮电大学)、于波(北京邮电大学)、邹天健(北京邮电大学)、严楚涵(澳门科技大学)、肖丹丹(国家体育总局体育科学研究所)、于洋(北京体育大学)、杨兰(北京邮电大学)、李珂(北京邮电大学院)、刘军(北京邮电大学)
【论文简介】
随着运动速度的增加,现有的动作识别算法呈现出不同程度的性能下降。为应对这一挑战,本文提出了一种基于混合窗口注意力机制的速度感知学习框架,能够根据动作速度自适应的调整注意力窗口的大小,以精确捕捉不同速度下的动作特征。
Paper链接:
https://openreview.net/forum?id=la8o6xjTnp
Code链接:
https://github.com/TrinityNeo99/VA-AR_official
来源:北京邮电大学人工智能学院
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!