加入收藏 | 设为首页 | 会员中心 | 我要投稿 莆田站长网 (https://www.0594zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

奖励随机化发现多智能体游戏中多样性策略行为

发布时间:2021-03-27 12:57:44 所属栏目:评论 来源:互联网
导读:进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 探索的算法,并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策

进行了实验验证,实验结果表明,RPG 的表现显著优于经典的 policy/action-space 探索的算法,并且发现了很多有趣的、人类可以理解的智能体行为策略。除此之外,论文进一步提出了 RPG 算法的扩展:利用 RR 得到的多样性策略池训练一个新的具备自适应能力的策略。

在法国启蒙思想家卢梭(Jean-Jacques Rousseau)的《论人类不平等起源》中,提到这样一个猎鹿(StagHunt)故事:一群猎人安静地在陷阱旁等待鹿的出现,猎到鹿的收益较大,可以让所有猎人都吃饱,但是由于鹿十分机敏,需要大家都耐心等待。这个时候一只兔子出现了,兔子体型较小,一人便可以成功捕猎,但是相应的收益也很小。

于是每一个猎人有了两个选择:继续等待鹿的出现还是立刻跳起来捕兔?如果猎人选择立刻捕兔,那么他可以捕到兔,得到较小的收益;如果猎人选择继续等待鹿,若所有其他猎人也都选择了继续等待鹿,那么他们最终可以猎到鹿,得到最大收益,但是一旦有任何一个其他猎人选择立刻捕兔,那么选择等待鹿的猎人只能挨饿(既没有捕兔,也没有机会再猎到鹿)。考虑 2 个猎人的情况,然后把各种情况的收益抽象出来,就引出了博弈论中非常经典的 2x2 矩阵游戏 StagHunt。如图 1 所示,每个猎人可以执行两种动作:猎鹿(Stag,缩写为 S)和捕兔(Hare,缩写为 H),如果两个猎人都选择猎鹿(S,S),可以得到最大收益 a(吃饱);如果两人都选择捕兔(H,H),得到较小收益 d(需分享兔子);如果一人猎鹿一人捕兔(S,H),那么捕兔的人得到收益 b(独自吃兔),而猎鹿的人得到最小收益 c(挨饿)。这些收益情况满足大小关系 a (吃饱)> b (独自吃兔子)>=d (两个人分享兔子)> c (挨饿)。

(编辑:莆田站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读