徐昊教授团队的两篇论文“CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising”和“RCRN: Real-world Character Image Restoration Network via Skeleton Extraction”被多媒体领域顶级国际会议ACM International Conference on Multimedia 2022(CCF-A)接收。两篇论文的第一作者均为意大利特伦托大学与太阳成集团tyc122cc联合培养的2019级博士生史大千,通讯作者为徐昊教授。史大千由Fausto Giunchiglia教授和徐昊教授共同指导。
论文“CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising”的作者还有考古学院李春桃教授,博士生刁晓蕾、迟杨、石立达等。论文的主要工作是:图像噪声是影响OCR效果的重要问题之一,尤其是对于噪声腐蚀严重的古文字图像。然而,通过现有去噪方法获得的结果并不能显著提高字符识别性能。这主要是因为当前的方法只关注像素级信息,而忽略了字符的关键特征如字形,导致在去噪过程中字形损坏。在本文中,介绍了一种基于字形融合和注意机制的新型通用框架,用于精确恢复字符图像。实验结果证明该方法生成的降噪图像能显著增强OCR效果。
论文“RCRN: Real-world Character Image Restoration Network via Skeleton Extraction”的作者还有博士生刁晓蕾、邢浩。论文的主要工作是:由于现实世界的图像经常受到图像退化的影响,构建高质量的字符图像数据集具有挑战性。将当前的图像恢复方法应用于此类字符图像时存在局限性。本文提出了一个现实世界的字符恢复网络(RCRN)来有效地恢复退化的字符图像,其中利用字符骨架信息和尺度集成特征提取来获得更好的恢复性能。实验结果表明,RCRN 能有效地解决真实条件下的文字图像降噪问题。
ACM International Conference on Multimedia(ACM MM)是多媒体领域公认的顶级国际学术会议,也是中国计算机学会(CCF)认定的A类会议。