原文信息
核学习赋能轻量化视频Transformer方法
Empowering lightweight video transformer via the kernel learning
扫描二维码阅读原文
https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/ell2.13215
文献速读
视频Transformer方法大多采用Softmax 注意力机制,忽略了视频空时注意力机制的内在诠释。为解决现有视频Transformer计算复杂度高、模型参数量大的问题,本文利用核学习重新表述视频Transformer 的Softmax自注意力机制和位置嵌入,设计复用方法和线性核变换矩阵压缩参数,改进了分离的空时注意力机制,增强外观和运动特征之间的交互。同时,提出了自适应得分的位置编码模块,增强位置嵌入的灵活性。实验结果证明,所提方法比现有Transformer 具有更高计算效率和精度。
正文导读
Transformer 倾向于利用时间注意力来纠正空域表观特征,是目前视频分类方法的主力军。然而,基于视频的Transformer 仍然具有繁重的参数量,需要部署在高性能硬件上。因此,对Transformer 进行轻量化改进尤为重要。此外,大多数研究将Softmax 自注意力机制视为标准组件,并未针对注意力机制提出恰当的改进,导致参数无法充分利用。
近年来,核学习凭借其优势,在模式识别领域取得了众多进展。其主要思想是通过核函数将数据映射到一个更高维度的特征空间,使得原本低维空间中线性不可分的问题变得更易处理。由于其具有非线性建模能力,模型可以更好捕捉数据的复杂结构和特征,更适合于迁移至特定任务中。
为了解决上述问题,本文利用核学习重新表述视频Transformer 中的自注意力和位置嵌入,并提出了一种新颖的轻量级核视频Transformer 模型。图1描述本文所提方法,包含四个阶段视频空时建模模块、一个输出分类器;其中每个视频空时建模模块包含一个块嵌入层、一个自适应分数位置编码模块和个核优化空时注意力模块。
图1 核Transformer网络的框架
作者简介
刘晓玺:山东大学,博士生。研究方向:基于深度学习的多媒体语义理解。
刘琚:山东大学,教授。研究方向:无线通信中空时信号处理技术,智能信号处理理论与应用,多媒体通信与网络传输技术等。
顾凌晨:山东师范大学,讲师。研究方向:人工智能、计算机视觉、多媒体信息处理等理论及应用研究,包括图像检索、行人重识别、视频摘要等。
期刊简介
Electronics Letters于1965年由英国工程技术学会(IET)创刊,现由Wiley出版。主要征稿内容包括:天线和传播,生物医学和生物启发的技术、信号处理和应用,控制工程,电磁学(理论、材料和器件),电子电路与系统,图像、视频和视觉处理及应用,信息、计算和通信,仪器仪表和测量,微波技术,微米与纳米技术,光学通信,光子学与光电子学,电力电子、能源和可持续发展,雷达、声纳和导航,半导体技术,信号处理,无线通信。
2023 CiteScore (Scopus): 2.7
2023 Journal Citation Indicator (Clarivate): 0.23
2023 Journal Impact Factor (Clarivate): 0.7
期刊主页
https://ietresearch.onlinelibrary.wiley.com/journal/1350911X
声明:本文由作者受邀供稿。欢迎转发至朋友圈,如需转载,请在公众号内给我们留言。
WILEY
MaterialsViews
Wiley旗下材料科学类期刊官方微信平台
推送材料科研资讯|访谈材料大咖新秀
分享撰稿投稿经验|关注最新招聘信息
点击“分享”,给我们一点鼓励吧~