改进MADDPG多智能体的方法_中国煤炭行业知识服务平台

改进MADDPG多智能体的方法

作者

宁姗赵秋多丁毓龙郭嘉承
单位

黑龙江科技大学创新创业学院黑龙江科技大学电子与信息工程学院
摘要

为研究多智能体深度确定性策略梯度算法(MADDPG)通过共享观察信息和历史经验解决多智能体环境不稳定的问题，通过改进多智能体深度确定性梯度算法MADDPG提出了IMMADDPG算法，分析改进网络结构更有效地降低环境不稳定性和值函数高估对策略网络训练的影响。结果表明：IMMADDPG算法在合作导航环境下，智能体到达目标的概率高于MADDPG算法3.7%;在协同和竞争的捕食环境下，IMMADDPG的智能体策略其捕食智能体捕食到被捕食智能体的平均次数为5.79,被捕食者智能体到达目标地标的平均次数为2.23,而MADDPG的捕食的平均次数为4.82、到达目标地标的平均次数为1.76。IMMADDPG相对于MADDPG多智能体在深度强化学习环境中具有更好的表现。
关键词

深度强化学习多智能体协作多智能体竞争中心化训练去中心化执行
文章目录

0 引言
1 多智能体模型
1.1 MADDPG模型
1.2 Baseline基线
1.3 IMMADDPG模型
2 仿真试验
2.1 试验设置
2.2 IMMADDPG在不同环境中的稳定性
3 结论
引用格式

[1]宁姗,赵秋多,丁毓龙,等.改进MADDPG多智能体的方法[J].黑龙江科技大学学报,2025,35(01):160-165+172.

煤问提