吕帅副教授指导的太阳成集团tyc122cc2018级硕士生韩帅同学的论文“Recruitment-imitation mechanism for evolutionary reinforcement learning”被数据挖掘领域重要国际期刊Information Sciences(CCF-B)录用。论文第一作者为吕帅副教授,第二作者为2018级硕士生韩帅,其他作者为2017级博士生周文博、2020级硕士生张峻伟。
强化学习、进化算法和模仿学习是处理连续控制任务的三种主要方法。强化学习具有较高的样本效率,但对超参数设置敏感,需要有效地探索;进化算法稳定,但样本效率较低;模仿学习具有较好的样本效率和稳定性,但需要专家数据的指导。本文提出了进化强化学习的招募-模仿机制RIM(recruitment-imitation mechanism),是一种结合了上述三种方法优势的可扩展框架。该框架的核心是一个双行动者、单评论家的强化学习Agent。该Agent从种群中招募高适应度的个体,指导自身从经验池中学习。同时,种群中低适应度的个体模仿强化学习Agent的行为模式,提高其适应度。RIM框架中的强化学习和模仿学习可以分别使用任意离策略的行动者-评论家型强化学习和数据驱动的模仿学习替代。本文利用Mujoco的若干连续控制任务评估RIM框架。实验结果表明:RIM优于以往的进化学习和强化学习方法。RIM的组件性能明显优于以往进化强化学习算法的组件,采用软更新的招募方式使强化学习Agent的学习比硬更新的方式更快。