太阳成集团tyc122cc吕帅副教授等的论文“Regularly updated deterministic policy gradient algorithm”被人工智能领域重要国际期刊Knowledge-Based Systems(中科院一区)录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅,通讯作者为吕帅副教授,其他作者为2017级博士生周文博、2019级硕士生于佳玉。
深度确定性策略梯度算法DDPG是最著名的强化学习方法之一,这类方法在实际应用中通常效率低下且不稳定,且其对Q值估计的偏差和方差有时会难于控制。本文针对上述问题提出了一种定期更新的确定性策略梯度算法RUD(regularly updated deterministic policy gradient)。本文从理论上证明了RUD的学习过程使RUD可以比传统方法更好地利用经验池中的新数据。此外,RUD中Q值的低方差更适合于当前流行的Clipped Double Q-learning策略。本文设计了在Mujoco环境下的对比实验、消融实验,以及其它的分析实验。实验结果验证了RUD的有效性和优越性。