AI Bot与演绎推理可以在多人隐藏角色游戏中击败人类

玩多人电脑游戏

使用演绎推理,机器人识别朋友或敌人,以确保在某些在线游戏中的人类赢得胜利。

麻省理工学院研究人员开发了一个装备人工智能的机器人,可以在棘手的在线多人游戏中击败人类角色和动机的秘密。

很多游戏机器人都是为了跟上人类球员。今年早些时候,来自卡内基梅隆大学的一支球队开发了世界上第一个可以在多人扑克中击败专业人士的机器人。DeepMind的alphago在2016年制造了头条新闻,以赢得专业的去参加球员。还建造了几个机器人来击败专业的国际象棋球员或在线捕获国旗等合作游戏中的武力。然而,在这些游戏中,机器人从一开始就了解其对手和队友。

在下个月的神经信息处理系统会议上,研究人员将展示Deeprole,这是一个可以赢得在线多人游戏的第一款游戏机器人,其中参与者的团队忠于最初不清楚。该机器人设计了新颖的“演绎推理”,添加到常用于扑克的AI算法中。这有助于其有关部分可观察的行动,以确定给定球员是队友或对手的概率。在这样做时,它很快就会向盟友学习,并采取哪些行动以确保其团队的胜利。

研究人员在4,000多轮在线游戏中挖掘了Deeprole,以上的在线游戏“抵抗:Avalon”。在这场比赛中,玩家试图随着游戏的进展推导出对同龄人的秘密角色,同时隐藏自己的角色。作为队友和一个对手,Deeprole始终如一地表现出人类的球员。

“如果您用机器人替换人类队友,您可以为您的团队赢得更高的胜率。机器人是更好的合作伙伴,“第一作者杰克塞里诺'18表示,在麻省理工学院专业,在线电气工程和计算机科学,是一个狂热的在线”Avalon“球员。

该工作是更广泛的项目的一部分,以更好地模范人类如何使社会知情的决定。这样做可以帮助建立更好地理解,学习和与人类一起工作的机器人。

“人类向他人学习并与他人合作,这使我们能够实现我们任何人都不能单独实现的事情,”大脑和机器和部门中心的邮政编码联合作者Max Kleiman-Weiner说麻省理工学院的脑和认知科学,以及哈佛大学。“像'Avalon'这样的游戏更好地模仿了人类在日常生活中的动态社交环境。你必须弄清楚谁在你的团队上,并与你合作,无论是你在幼儿园的第一天还是你办公室的另一天。“

Joining Serrino和Kleiman-Weiner论文是David C.哈佛和约书亚B. Tenenbaum的David C. Parkes,这是一个计算认知科学教授和麻省理工学院计算机科学和人工智能实验室的成员,以及大脑,思想和机器的中心。

扣除机器人

在“Avalon”中,三名球员随机,秘密地分配给“阻力”团队和两个球员到“间谍”团队。两个间谍玩家都知道所有球员的角色。在每一轮期间,一名球员提出了两个或三个玩家的子集,以执行任务。所有玩家同时和公开投票批准或不赞成该子集。如果大多数批准,子集秘密确定任务是否会成功或失败。如果选择了两个“成功”,则会成功;如果选择了一个“失败”,任务失败。抵抗球员必须始终选择成功,但间谍玩家可以选择任何结果。抵抗团队在三次成功的任务后获得胜利;三个失败的任务后,间谍团队赢得了。

赢得游戏基本上介于努力致力于抵抗或间谍,并为您的合作者投票。但这实际上比下棋和扑克更复杂。“这是一个不完美的信息,”Kleiman-Weiner说。“当你开始时,你甚至不确定你反对谁,所以有一个额外的发现阶段,找到了与之合作的谁。”

Deeprole使用一个名为“反事实遗憾最小化”(CFR)的游戏规划算法 - 这将通过反复播放自身播放来玩游戏 - 增强演绎推理。在游戏中的每个点,CFR展望未来,以创建一个决定的线条和节点的决定“游戏树”,描述每个玩家的潜在未来动作的线条和节点。游戏树代表每个玩家可以在每个未来决策点中采取的所有可能动作(行)。在发挥潜在数十亿游戏模拟中,CFR注意到哪些行动增加或减少了其获胜的机会,并迭代地修改其策略,以包括更好的决定。最终,它计划最佳策略,最糟糕的是对抗任何对手。

CFR适用于扑克等游戏,公共行动 - 例如投注钱和折叠一只手 - 但是当行动是秘密时,它挣扎。研究人员的CFR结合了公共行动和私人行动后果来确定球员是否是抵抗或间谍。

通过抵抗抵抗和间谍来训练机器人。在播放在线游戏时,它使用它的游戏树来估计每个玩家要做的事情。游戏树代表了一种策略,使每个玩家赢得最高可能性作为指定的角色。树的节点包含“反事实值”,基本上估计玩家收到如果他们播放给定策略的回报。

在每次任务中,机器人介绍了与游戏树相比之下的人。如果在整个游戏中,一名球员制造了足够的决定,这是与机器人的期望不一致,那么玩家可能会像其他角色一样。最终,机器人为每个玩家的角色分配高概率。这些概率用于更新机器人的策略,以增加其胜利的机会。

同时,它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于它估计其他玩家可以如何做出反应,帮助它做出更聪明的决策。“如果它是一个失败的双人任务,其他玩家知道一名球员是间谍。机器人可能不会向未来的任务提出同一团队,因为它知道其他玩家认为这是不好的,“Serrino说。

语言:下一个边疆

有趣的是,机器人不需要与其他玩家沟通,这通常是游戏的关键组成部分。“Avalon”使玩家能够在游戏期间在文本模块上聊天。“但事实证明我们的机器人能够与其他人的团队一起工作,同时只观察球员的行为,”Kleiman-Weiner说。“这很有意思,因为人们可能认为这样的游戏需要复杂的通信策略。”

接下来,研究人员可以使BOT在游戏期间与简单的文本进行通信,例如说玩家好或坏。这将涉及将文本分配给玩家是阻力或间谍的相关概率,该机器人已经用来制定其决定。Beyond that, a future bot might be equipped with more complex communication capabilities, enabling it to play language-heavy social-deduction games — such as a popular game “Werewolf” —which involve several minutes of arguing and persuading other players about who’s on the good and bad teams.

“语言绝对是下一个边疆,”Serrino说。“但是在这些游戏中攻击许多挑战,沟通是如此的关键。”

参考:“查找朋友和敌人在多签发的游戏中”,Max Kleiman-Weiner,David C. Parkes和Joshua B. Tenenbaum。
arxiv:1906.02330v1(PDF.

2评论在“带有演绎推理的AI Bot可以击败多人隐藏角色游戏中的人类”

  1. 另一件好的文章

  2. 许多粉丝开始在网上账簿或抽奖活动的刺激,金融时刻是次要的,他们不知道如何学习如何投注运动。其他人,获得了良好的额外收入,有兴趣了解如何赌去体育,以便更频繁地赢得更多。最后,有些人为谁投注是收入的主要来源,并且相当坚持。

发表评论

电子邮件地址是可选的。如果提供的话,您的电子邮件不会发布或共享。