• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
有样本重用的阶段性策略梯度深度强化学习
  • 85
  • 作者

    李海亮王莉

  • 单位

    太原理工大学大数据学院

  • 摘要
    深度强化学习是一项非常具有前景的研究领域,它能够应用于多个领域,解决各种复杂任务。针对基于策略的深度强化学习算法中存在的样本不能重复利用,样本利用率低的问题,提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuse,SR-PPG)。该算法在阶段性策略梯度算法(phasic policy gradient,PPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。
  • 关键词

    深度强化学习阶段性策略梯度样本重用

  • 文章目录
    1 相关工作
    2 有样本重用的阶段性策略梯度
    2.1 理论分析
    2.2 算法
    3 实验验证与分析
    3.1 实验环境
    3.2 实验结果与分析
    4 结 语
  • 引用格式
    李海亮,王莉.有样本重用的阶段性策略梯度深度强化学习[J/OL].太原理工大学学报:1-8[2023-06-15].http://kns.cnki.net/kcms/detail/14.1220.N.20230531.1535.002.html
  • 相关文章
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联