• 访客 您好
  •  | 
  • 注册
  • 全部
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
改进MADDPG多智能体的方法
  • 作者

    宁姗赵秋多丁毓龙郭嘉承

  • 单位

    黑龙江科技大学创新创业学院黑龙江科技大学电子与信息工程学院

  • 摘要
    为研究多智能体深度确定性策略梯度算法(MADDPG)通过共享观察信息和历史经验解决多智能体环境不稳定的问题,通过改进多智能体深度确定性梯度算法MADDPG提出了IMMADDPG算法,分析改进网络结构更有效地降低环境不稳定性和值函数高估对策略网络训练的影响。结果表明:IMMADDPG算法在合作导航环境下,智能体到达目标的概率高于MADDPG算法3.7%;在协同和竞争的捕食环境下,IMMADDPG的智能体策略其捕食智能体捕食到被捕食智能体的平均次数为5.79,被捕食者智能体到达目标地标的平均次数为2.23,而MADDPG的捕食的平均次数为4.82、到达目标地标的平均次数为1.76。IMMADDPG相对于MADDPG多智能体在深度强化学习环境中具有更好的表现。
  • 关键词

    深度强化学习多智能体协作多智能体竞争中心化训练去中心化执行

  • 文章目录


    0 引 言
    1 多智能体模型
    1.1 MADDPG模型
    1.2 Baseline基线
    1.3 IMMADDPG模型
    2 仿真试验
    2.1 试验设置
    2.2 IMMADDPG在不同环境中的稳定性
    3 结 论
  • 引用格式
    [1]宁姗,赵秋多,丁毓龙,等.改进MADDPG多智能体的方法[J].黑龙江科技大学学报,2025,35(01):160-165+172.
相关问题
立即提问

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联
累计访问量:27683414,今日访问人数:17583 站长统计