Visual Intelligence
第2卷第3期在线出版
Visual Intelligence是由中国图象图形学学会主办、Springer出版社出版的国际学术期刊,以开放获取(OA)的形式出版,不收取作者任何稿件处理费用。
期刊于2023年创刊,主编是王耀南院士。期刊致力于推动“视觉”与“智能”的有机结合与协同发展,主要发表视觉智能领域具有国际先进水平的新理论、新思想、新技术等的研究成果和技术进展,为促进视觉智能技术的高质量发展和学术交流服务。期刊入选2022中国科技期刊卓越行动计划高起点新刊,是《图像图形领域高质量科技期刊分级目录》T1级期刊,现已被DBLP、EBSCO、Google Scholar、CNKI、Wanfang等国内外重要数据库收录。欢迎投稿!
内 容 概 览
本期共发表8篇论文,包括1篇综述论文(Review),7篇研究性论文(Research Article)。
Review
大规模高质量数据合成方法
Review on Synergizing the Metaverse and AI-driven Synthetic Data: Enhancing Virtual Realms and Activity Recognition in Computer Vision
作者: 新加坡英伟达人工智能技术中心Megani Rajendran等
引用本文:Rajendran, M., Tan, C. T., Atmosukarto, I., Ng, A. B., & See, S. (2024). Review on synergizing the metaverse and AI-driven synthetic data: enhancing virtual realms and activity recognition in computer vision. Visual Intelligence 2, Article no. 27.
https://link.springer.com/article/10.1007/s44267-024-00059-6
本文简介:本文系统地调研了用于行为检测和目标识别的真实数据集和合成数据集。通过利用元宇宙相关技术,本文提出了SynDa数据合成流程框架,该框架使用真实感渲染和AI姿态估计技术,通过融合现实生活中的视频数据集,生成大规模的合成数据集来解决数据稀缺性问题,同时降低数据获取成本。
Research Article
对话视频生成方法
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation
作者:上海交通大学晏轶超、杨小康等
引用本文:Yan, Y., Zhou, Z., Wang, Z., Gao, J., & Yang, X. (2024). DialogueNeRF: towards realistic avatar face-to-face conversation video generation. Visual Intelligence 2, Article no. 24.
https://link.springer.com/article/10.1007/s44267-024-00057-8
本文简介:本文提出生成逼真的面对面对话视频的方法。对话生成比单人生成更具挑战性,因为它不仅需要生成逼真的个人演讲者,而且还要求听讲者对演讲做出反应。本文提出了一种基于神经辐射场(NeRF)的新型统一框架来完成此任务。
Face Shape Transfer via Semantic Warping
作者:哈尔滨工业大学张盛平等
引用本文:Li, Z., Lv, X., Yu, W., Liu, Q., Lin, J., & Zhang, S. (2024). Face shape transfer via semantic warping. Visual Intelligence 2, Article no. 26.
https://link.springer.com/article/10.1007/s44267-024-00058-7
本文简介:本文提出了一种新颖的人脸编辑方法,通过自适应地构建编码网络,实现了对面部不同组件(如眼睛、鼻子、嘴巴)的特征嵌入学习,达到了组件级别的可控性。其次,为了充分利用不同尺度的语义解析特征,借助全局密集网络(DenseNet)中的层间连接方法,最大限度地促进信息流动。为了避免变形伪影,引入空间变换网络(STN),有效处理各种类型的语义变形。
A Fast Mask Synthesis Method for Face Recognition
作者:中国科学院自动化所王金桥等
引用本文:Guo, K., Zhao, C., & Wang, J. (2024). A fast mask synthesis method for face recognition. Visual Intelligence 2, Article no. 25.
https://link.springer.com/article/10.1007/s44267-024-00060-z
本文简介:本文将人脸关键点和人脸掩码整合在数据增强块中,提出了一种新的掩码人脸识别架构,能够自定义人脸的遮挡区域,运用在各种有遮挡场景的人脸识别领域中;在损失函数中加入了质量判断提升模型训练的鲁棒性,进一步减小数据集质量,尤其是掩码生成之后的噪声带来的影响,使得模型能够更快收敛。
Counterfactual Discriminative Micro-Expression Recognition
作者:香港城市大学李勇等
引用本文:Li, Y., Liu, M., Lao, L., Wang, Y., & Cui, Z. (2024). Visual Intelligence 2, Article no. 29.
https://link.springer.com/article/10.1007/s44267-024-00063-w
本文简介:本文提出了一种反事实判别的微表情识别方法,旨在有效捕捉微妙的时序变化以实现稳健的微表情识别。为了明确捕捉隐藏在微表情序列中的时序动态因果关系,我们提出了微表情反事实推理机制,通过比较事实与原始微表情序列和反事实与反事实修正的微表情序列的影响,然后进行因果意识预测,以鼓励模型学习那些潜在的微表情时序线索,最终提升微表情识别的性能。
Learning a Generalizable Re-identification Model from Unlabelled Data with Domain-agnostic Expert
作者:武汉大学叶茫、杜博等
引用本文:Liu, F., Ye, M., & Du, B. (2024). Learning a generalizable re-identification model from unlabelled data with domain-agnostic expert. Visual Intelligence 2, Article no. 28.
https://link.springer.com/article/10.1007/s44267-024-00062-x
本文简介:本文探索了行人重识别领域的无监督领域泛化问题。针对行人重识别中各源域标签空间不一致的问题,引入混合专家模型。然后,设计参数平均和分布正则策略学习领域无关专家挖掘专家间的泛化信息,同时缓解模型在测试阶段依赖于多个专家的问题。
CAGNet: A Context-aware Graph Neural Network for Detecting Social Relationships in Videos
作者: 南京大学武港山等
引用本文: Yu, F., Fang, Y., Zhao, Z., Bei, J., Ren, T., & Wu, G. (2024). CAGNet: a context-aware graph neural network for detecting social relationships in videos. Visual Intelligence 2, Article no. 22.
https://link.springer.com/article/10.1007/s44267-024-00056-9
本文简介:本文将视频上的社交关系检测与场景图生成类比,将问题归约为视频上的社交关系图生成。本文提出了一个利用上下文的图神经网络,通过信息传递获取上下文,可以更有效地生成社交关系图。本文还构建了一个更具挑战性的视频上社交关系检测的数据集,包含了72小时的视频片段,5313个关系实例。
Efficient Forest Fire Detection Based on An Improved YOLO Model
作者: 南京林业大学徐昇等
引用本文: Cao, L., Shen, Z., & Xu, S. Efficient forest fire detection based on an improved YOLO model. Visual Intelligence 2, Article no. 20. https://link.springer.com/article/10.1007/s44267-024-00053-y
本文简介:本文提出了一种基于改进YOLOv5的新型检测技术模型,以增强森林火灾检测的视觉表现并保留更多的全局信息。首先,通过增加即插即用的全局注意力机制,提高了YOLOv5模型在骨干网络和颈部的特征提取效率。接着,我们引入了一个重新参数化的卷积模块,并使用解耦检测头来加速模型的收敛速度。最后,引入加权双向特征金字塔网络(BiFPN),融合本地信息处理的特征信息,从而实现更高效的特征融合。
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)