奖励随机化发现多智能体游戏中多样性策略行为

发布时间：2021-03-27 12:57:44 所属栏目：评论来源：互联网

导读：进行了实验验证，实验结果表明，RPG 的表现显著优于经典的 policy/action-space 探索的算法，并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外，论文进一步提出了 RPG 算法的扩展：利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策

进行了实验验证，实验结果表明，RPG 的表现显著优于经典的 policy/action-space 探索的算法，并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外，论文进一步提出了 RPG 算法的扩展：利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策略。

在法国启蒙思想家卢梭（Jean-Jacques Rousseau）的《论人类不平等起源》中，提到这样一个猎鹿（StagHunt）故事：一群猎人安静地在陷阱旁等待鹿的出现，猎到鹿的收益较大，可以让所有猎人都吃饱，但是由于鹿十分机敏，需要大家都耐心等待。这个时候一只兔子出现了，兔子体型较小，一人便可以成功捕猎，但是相应的收益也很小。

于是每一个猎人有了两个选择：继续等待鹿的出现还是立刻跳起来捕兔？如果猎人选择立刻捕兔，那么他可以捕到兔，得到较小的收益；如果猎人选择继续等待鹿，若所有其他猎人也都选择了继续等待鹿，那么他们最终可以猎到鹿，得到最大收益，但是一旦有任何一个其他猎人选择立刻捕兔，那么选择等待鹿的猎人只能挨饿（既没有捕兔，也没有机会再猎到鹿）。考虑 2 个猎人的情况，然后把各种情况的收益抽象出来，就引出了博弈论中非常经典的 2x2 矩阵游戏 StagHunt。如图 1 所示，每个猎人可以执行两种动作：猎鹿（Stag，缩写为 S）和捕兔（Hare，缩写为 H），如果两个猎人都选择猎鹿（S，S），可以得到最大收益 a（吃饱）；如果两人都选择捕兔（H，H），得到较小收益 d（需分享兔子）；如果一人猎鹿一人捕兔（S，H），那么捕兔的人得到收益 b（独自吃兔），而猎鹿的人得到最小收益 c（挨饿）。这些收益情况满足大小关系 a （吃饱）> b （独自吃兔子）>=d （两个人分享兔子）> c （挨饿）。

（编辑：莆田站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

荣耀X30 Max跌破两千元	突围之路一个中国制造
我处于硅谷管芯片	讨论各大厂商面对骁龙