吕帅副教授指导的太阳成集团tyc122cc2020级硕士生龚晓宇同学的论文“Actor-critic with familiarity-based trajectory experience replay”在数据挖掘领域重要国际期刊Information Sciences(CCF-B类)上发表。论文第一作者为2020级硕士生龚晓宇,通讯作者为吕帅副教授,其他作者为2019级硕士生于佳玉、2019级本科生陆恒威。
深度强化学习通过智能体与环境进行交互获取原始输入信息,从而学习动作策略,通过不断地试错逐步形成具有强大学习能力的智能体。本文旨在解决深度强化学习中著名的异步优势行动者评论家算法A3C样本效率低下的问题。首先,设计了一种新的离策略actor-critic算法,该算法在在策略actor-critic算法中加入了经验池,并采用离策略和在策略相结合的更新机制提高样本效率。其次,研究了轨迹经验的经验回放方法,提出了一种以经验回放次数作为采样概率权重的基于熟悉度的回放机制FRM(familiarity-based replay mechanism)。最后,还使用了GAE-V方法纠正离策略学习造成的偏差。在Atari和MuJoCo基准任务上的实验结果表明:本文提出的每项改进均有助于提高算法的样本效率和最终性能,同时本方法保持了与A3C相同的快速收敛和并行特性,具有更好的探索能力。