(一)
计算机科学与技术学院王生生教授团队的论文“Beyond Attentive Tokens: Incorporating Token Importance and Diversity for Efficient Vision Transformers”被CVPR 2023录用。论文的第一作者为王生生教授的博士研究生龙思凡,王生生教授为通讯作者。
视觉转换器已在各种视觉任务上取得了显著的改进,但其令牌之间的二次交互显著降低了计算效率。最近提出了许多修剪方法来去除冗余的令牌以实现高效的视觉转换器。然而,现有的研究主要集中于保留局部重要令牌,完全忽略了令牌的全局多样性。在本文中,我们强调了全局令牌多样性的重要意义,并提出了一种有效的令牌解耦和合并方法,可以同时考虑令牌重要性和多样性进行令牌修剪。根据类令牌注意力得分,我们解耦重要和不重要的令牌。除了保留最具有鉴别力的局部令牌之外,我们还将相似的不重要令牌合并,并将同质的重要令牌匹配以最大化令牌多样性。据我们所知,我们是第一个强调在剪枝视觉转换器时需要考虑令牌多样性的工作,并通过数值和实证分析证明了它的必要性。我们的方法在准确性和FLOPs 之间的权衡下实现了SOTA 性能。 它还可以部署到其他令牌剪枝方法中,实现出色的性能提升。
(二)
太阳成集团tyc122cc徐昊教授指导的2020级博士研究生李健的论文“FCC: Feature Clusters Compression for Long-Tailed Visual Recognition”被CVPR 2023录用。本篇论文的第一作者为李健,通讯作者为徐昊教授,其他作者包括葡萄牙米尼奥大学博士生孟子尧、意大利特伦托大学博士生史大千、刁小蕾、太阳成集团tyc122cc人工智能学院博士生宋瑞和我院硕士生王静文。
深度神经网络(Deep Neural Networks, DNNs)能够将样本映射为密集的特征簇。然而,训练于长尾数据集上的DNNs往往将少数类样本映射为稀疏簇,这种稀疏性使得在测试阶段样本被映射得更加离散,甚至越过决策边界而导致错误分类。本文提出了一种简单且通用的特征簇压缩方法FCC(Feature Clusters Compression),能够有效地提升特征类内聚合度,进而提升模型在长尾数据集上的性能。FCC在训练过程中将骨干特征乘以特定的缩放因子,以此在原始特征和被乘特征之间建立线性压缩关系。随着DNNs的训练,被乘特征被映射成稠密的特征簇,而这种压缩关系迫使原始特征被映射成更紧密的簇。测试阶段,原始特征被直接输入至后续全连接网络,此时测试样本能够被映射得更加紧密,而不易越过决策边界。此外,FCC仅关注骨干特征,与模型其他组件不发生冲突,使得FCC能够友好地与现有长尾方法结合并增强它们。该工作在三个长尾基准数据集上进行了100余组实验,结果充分证明了FCC的有效性和优越性。
CVPR全称为计算机视觉和模式识别会议(IEEE/CVF Computer Vision and Pattern Recognition Conference),是人工智能领域顶级国际会议,也是计算机学会收录的人工智能领域A类会议。CVPR 2023将于2023年6月18日至22日在加拿大温哥华举办。