论文
论文
期刊
专题
资讯
问答
专家
智库
图表
推荐
视频
高级检索
首页
期刊群
论文库
专家库
图表
专题
问答
视频
图书
科研智库
资讯
行业新闻
学术会议
展会信息
实验室
投稿
各刊稿件投审编端口
写作指导
关于
平台介绍
出版传媒集团
学术期刊工作委员会
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
首页
>
优先出版
有样本重用的阶段性策略梯度深度强化学习
太原理工大学学报
网络首发时间:2023-06-01 17:02:24
85
作者
李海亮
王莉
单位
太原理工大学大数据学院
摘要
深度强化学习是一项非常具有前景的研究领域,它能够应用于多个领域,解决各种复杂任务。针对基于策略的深度强化学习算法中存在的样本不能重复利用,样本利用率低的问题,提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuse,SR-PPG)。该算法在阶段性策略梯度算法(phasic policy gradient,PPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。
关键词
深度强化学习
阶段性策略梯度
样本重用
文章目录
1 相关工作
2 有样本重用的阶段性策略梯度
2.1 理论分析
2.2 算法
3 实验验证与分析
3.1 实验环境
3.2 实验结果与分析
4 结 语
引用格式
李海亮,王莉.有样本重用的阶段性策略梯度深度强化学习[J/OL].太原理工大学学报:1-8[2023-06-15].http://kns.cnki.net/kcms/detail/14.1220.N.20230531.1535.002.html
相关文章
[1]
深度强化学习局部策略迁移方法
相关问题
立即提问
太原理工大学学报
Journal of Taiyuan University of Technology
中文核心期刊
中国科技核心期刊
0年期
推荐专家
崔耀
推荐企业
第七届中国国际煤炭清洁高效利用展览会
推荐专题
《洁净煤技术》“煤与新能源”虚拟专题(一)
《#煤炭经济研究 》 “能源革命下电力新质生产力构成”专题
《工矿自动化》“矿山无人驾驶技术”专题
《洁净煤技术》“碳材料新技术”虚拟专题(一)|虚拟专题
《洁净煤技术》“煤电三改联动” | 虚拟专题
《煤田地质与勘探》“煤地质与碳中和” | 虚拟专题
《能源环境保护》“重金属污染”研究领域
《能源环境保护》“机器学习”研究领域
“对话”专题(《智能矿山》)
《洁净煤技术》“CCUS大规模集成化发展”专题
亮点论文
蒙陕矿区内钢板-钢筋混凝土钻井井壁非均匀受力特性研究
环形冻结温度场演化规律影响因素研究
基于虚拟现实技术的锚杆(索)支护规范化施工培训系统研发
能源革命下电力新质生产力构成
新型低能耗CO2混合胺吸收剂实现燃煤烟气高效脱碳
深部高浓度胶结充填开采地表沉陷控制因素及影响规律
新时期能源企业创建世界一流企业战略研究
融合简化可视图和A*算法的矿用车辆全局路径规划算法
纳米磁铁矿对海藻厌氧发酵产甲烷性能影响及机制探究
纤维种类及橡胶含量对矿用水泥基材料性能影响研究
主办单位:
煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会
煤问提
问答社区(热门)
问答社区(问答专场)
提问
热议话题
问答
推荐专家
活跃用户
煤传媒
时事
科技
事件
煤视界
专家报告
特别访谈
煤炭科普
会议活动
增强素材
技术宣讲
科技创新50强
2017年度
2016年度
2015年度
会员中心
专家
通讯员
普通会员
登录注册
©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16
技术支持:
云智互联