近日,由人工智能学院刘磊老师作为第一作者、人工智能学院李长河教授和安徽大学李成龙教授作为共同通讯作者完成的论文“Unveiling the Power of Multi-modal Template Update in RGBT Tracking”被图像处理领域国际顶级期刊 IEEE Transactions on Image Processing 接收。安徽理工大学人工智能学院为论文第一完成单位,论文链接:https://ieeexplore.ieee.org/document/11551799。
该论文聚焦多模态视觉跟踪中模板更新机制理解不足、复杂场景下目标外观变化适应能力受限等问题,提出了一种基于原型学习的多模态模板更新分析框架,将模板更新过程分解为多模态原型、原型集成、原型评估和原型更新算法四个关键组成部分。在此基础上,进一步构建多模态原型跟踪器MPTrack,通过固定模板、模态共享模板和模态特定模板协同建模目标表征,并结合原型评估、自适应更新和原型引导的跨模态集成机制,有效提升了模型在遮挡、干扰、低光照、恶劣天气及模态质量不均衡等复杂场景下的跟踪鲁棒性。实验结果表明,MPTrack在GTOT、RGBT210、RGBT234、LasHeR和VTUAV等五个具有挑战性的多模态跟踪基准上取得领先性能,刷新多项性能记录。

《IEEE Transactions on Image Processing》(简称IEEE TIP)是IEEE SignalProcessing Society旗下图像处理领域国际权威期刊,主要刊载图像、视频及多维信号的形成、获取、处理、通信、分析与显示等方面的理论、算法和体系结构研究,最新影响因子为 13.7;该刊同时为中国计算机学会推荐的计算机图形学与多媒体领域A类国际期刊,是《人工智能学院学术论文分类》中的A类期刊。IEEE TIP作为图像处理领域国际顶级期刊,对论文的理论创新、技术深度和实验验证要求严格,发表难度高。该成果的取得体现了学院在多模态智能感知、计算机视觉与图像处理等方向的持续积累和创新能力。
由人工智能学院王甲祥老师作为第一作者、安徽大学郑爱华教授作为通讯作者完成的论文“Adaptive Interaction and Correction Attention Network for Audio-Visual Matching”被IEEE Transactions on Information Forensics and Security接收,安徽理工大学人工智能学院为论文第一完成单位,论文链接:https://ieeexplore.ieee.org/abstract/document/11072218。

该论文聚焦视听匹配任务中因跨模态关联不足和噪声干扰导致的模态差异问题,提出了一种新颖的自适应交互与校正注意力网络(AICANet)。该方法首先设计了自适应交互注意力模块(AIA),利用动态生成的伪标签引导跨模态局部特征的稀疏交互,并结合二阶自支持机制充分挖掘音视频特征间的潜在语义关联;其次,提出了自适应校正注意力机制(ACA),通过自适应阈值对注意力相关矩阵进行调节,有效滤除干扰特征,降低模态间的分布差异;此外,团队进一步设计了相对距离拉伸度量损失
,通过优化锚点、正样本和负样本间的距离关系,增强视听特征在同一嵌入空间中的判别能力。实验结果表明,AICANet在VoxCeleb和VoxCeleb2等公开数据集上取得了优异的匹配性能,在多项评估指标上超越了现有主流方法,验证了其在减少模态差异、提升跨模态匹配鲁棒性方面的显著优势。
《IEEE Transactions on Information Forensics and Security》(简称IEEE TIFS)是IEEE Signal Processing Society旗下信息安全与取证领域的国际权威期刊,主要刊载信息取证、安全信号处理、多媒体安全、生物特征识别、数字版权管理及跨模态智能分析等方面的理论、算法与系统研究,最新影响因子为6.8;该刊同时为中国计算机学会推荐的网络与信息安全领域A类国际期刊,是《人工智能学院学术论文分类》中的B类期刊。IEEE TIFS作为信息安全与取证领域国际顶级期刊,对论文的理论创新性、技术完备性和实验充分性要求严格,论文录用竞争激烈。该成果的取得体现了学院在跨模态智能感知、生物特征识别与多媒体安全等方向的持续积累和创新能力,进一步增强了学院师生面向人工智能前沿开展高水平研究、产出高质量成果的信心与动力。