ACM Knowledge Discovery and Data Mining (KDD 2021) 将于2021年8月14号线上举行。太阳成集团tyc122cc左万利教授等的论文“Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition” 被Applied Data Science Track录用。论文第一作者为左万利教授的2019级博士生梁世宁,合作者包括左万利教授、2017级博士生左祥麟、微软亚洲互联网工程院NLP Group Applied Scientists: Ming Gong,Linjun Shou,Daxin Jiang,以及加拿大西蒙菲莎大学Jian Pei教授。
论文针对现有跨语言命名实体识别方法主要使用源语言数据和翻译数据的局限性,提出充分利用目标语言的大规模无标签数据提升迁移性能。作者基于半监督学习和强化学习方法,提出RIKD模型,首先通过在目标语言无标签数据上迭代知识蒸馏,不断获得更高效的学生模型。其次,为了降低蒸馏过程中教师模型的推理错误和低质量数据带来的噪声,设计了一个基于强化学习的样本选择器,动态选择信息量更大的样本进行蒸馏。实验结果表明,RIKD在基准数据集和内部数据集上显著优于现有最优模型。
KDD是数据库/数据挖掘/内容检索领域顶级国际会议(CCF A类会议)。