凯发k8国际首页登录科技
微信号:UnionScience
扫描关注,更多最新动态
导语ღ◈:Facebook AI和卡耐基梅隆大学的研究人员研发出了新人工智能系统ღ◈,成功打败德州扑克世界冠军在内的15名职业选手ღ◈,为人工智能与人类竞赛领域再次带来新突破ღ◈。
智东西7月12日消息凯发天生赢家一触即发ღ◈。ღ◈,昨日ღ◈,Facebook AI和美国卡耐基梅隆大学(Carnegie Mellon University)的研究人员在《科学》杂志上发表了一篇论文ღ◈,他们研发出了一款名叫Pluribus的扑克人工智能机器人ღ◈。
该机器人在6人无限制德州扑克比赛中击败了15名职业选手ღ◈,其中包括2000年世界扑克锦标赛冠军克里斯“耶稣”弗格森和4次世界扑克巡回赛冠军达伦埃利亚斯凯发K8娱乐官网版ღ◈。
Facebook声称ღ◈,Pluribus是第一个在基准游戏中持续击败2个人类玩家以上的人工智能ღ◈。
自我博弈(self-play)与搜索形式相结合ღ◈,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功ღ◈。然而ღ◈,大多数现实世界的战略互动涉及隐藏信息以及两个以上的参与者ღ◈。这使得理论和实践存在很大的差异性ღ◈,而且明显更加困难ღ◈。
Pluribus的成功表明ღ◈,尽管理论上没法保证AI在多人游戏中的表现ღ◈,通过精巧的算法依然有望设计和训练出超越人类的AIღ◈。
事实上ღ◈,在扑克游戏中包含了许多隐藏信息ღ◈,这意味着人工智能在不知道对手的牌的情况下ღ◈,需要靠“虚张声势”的表现或其他策略诱惑对手ღ◈,才有可能获得成功ღ◈。
在12天的测试比赛中ღ◈,研究人员让Pluribus分别在两种不同的环境中人类选手进行游戏对决ღ◈。一种为5位人类选手与1个Pluribus相对决ღ◈,另一种为5个Pluribus与1位人类选手相对决ღ◈。
其中凯发k8ღ◈,ღ◈,它的对手包括2000年世界扑克锦标赛冠军“耶稣”克里斯·弗格森(Chris Ferguson)ღ◈,以及4次世界扑克巡回赛冠军达伦·埃利亚斯(Darren Elias)ღ◈。
针对这场测试比赛ღ◈,Facebook AI的研究人员表示匿踪库卡隆套装凯发K8娱乐官网版ღ◈,如果每个筹码价值1美元ღ◈,那么Pluribus每把手牌大约可赚5美元ღ◈,每小时可以赢得大约1000美元的奖金ღ◈。
Pluribus在游戏中考虑的投注数量主要在1到14之间变化ღ◈,确切投注还需要看实际情况而变化ღ◈。尽管它可以在100到10,000美元之间进行投注ღ◈,但实际上玩德州扑克时ღ◈,对手并不局限于那些少数选项匿踪库卡隆套装ღ◈。
就像以往人工智能被训练玩像象棋ღ◈、Dota II和星际争霸II等游戏一样ღ◈,Pluribus也能进行自我游戏训练凯发K8娱乐官网版ღ◈。
自我游戏中匿踪库卡隆套装ღ◈,Pluribus在没有任何人工或先前人工智能游戏数据输入的情况下ღ◈,与自己的副本进行对抗来掌握德州扑克的规则ღ◈,以及计算战术数据ღ◈。
但是人工智慧ღ◈,ღ◈,这种“自我游戏”的学习方法意味着Pluribus无法从人类那里获得任何游戏数据ღ◈,也无法观察到其他人工智能系统的游戏策略匿踪库卡隆套装凯发k8国际首页登录ღ◈,ღ◈。
研究人员在论文中表示ღ◈,Pluribus从零开始随机运行ღ◈,并逐渐改进ღ◈,它需要决定将做出哪些动作和这些动作的概率分布ღ◈,以产生比它早期版本策略更好的结果ღ◈。
训练方面ღ◈,Pluribus能够在20个小时的德州扑克训练中ღ◈,达到超越人类的水平ღ◈,并击败人类玩家ღ◈,但是在多人游戏方面的问题依旧难以破解ღ◈。
研究人员表示凯发国际K8官网ღ◈,ღ◈,这些创新具有超越扑克的重要意义ღ◈,因为双人的零和博弈(一项游戏中ღ◈,博弈各方有输有赢ღ◈,但收益和损失相加总和永远为零)在娱乐游戏中很常见ღ◈,但在现实生活中却非常罕见ღ◈。主要是现实世界的场景通常涉及多个参与者ღ◈,例如在线拍卖中的竞价或者交通导航ღ◈。
Pluribus的系统是在一个名为Libratus人工智能机器人的基础上创建的ღ◈,是Libratus的增强版本凯发K8娱乐官网版ღ◈。
Libratus是卡内基梅隆大学在2017年开发的AI扑克机器人ღ◈,它在2017年成功打败了4名顶尖的德州扑克职业选手凯发K8娱乐官网版ღ◈。
在对战策略方面ღ◈,Libratus主要采用了一种名叫纳什均衡(Nash equilibrium)的对战策略ღ◈,在博弈过程中ღ◈,只要其他玩家不改变策略ღ◈,单一玩家就无法通过变换策略获益ღ◈。
与Libratus不同的是ღ◈,Pluribus包含了一个新的在线搜索算法ღ◈,可以通过搜索前面的几个游戏步骤ღ◈,来评估自己下一步战术的选项ღ◈。同时ღ◈,Pluribus还拥有比Libratus更快的自玩算法凯发K8娱乐官网版ღ◈。
在线搜索算法和自玩算法的更新与结合ღ◈,使得Pluribus能用比Libratus更少的处理能力和内存来进行训练ღ◈。
研究人员表示ღ◈,这种效率与其他近期的AI里程碑项目形成了鲜明对比ღ◈,后者需要相当于数百万美元的云计算资源来进行训练k8凯发ღ◈,ღ◈,而Pluribus只需要价值150美元(约1030.46人民币)的云计算资源ღ◈。
此外ღ◈,Pluribus也利用动作抽象和信息抽象来推断游戏中未来几轮的下注情况ღ◈,以及批量计算相似的牌ღ◈。
它还使用CFR ( Counterfactual regret minimization)算法ღ◈,这是一种能使用自我博弈来进行循环推理的游戏算法ღ◈,能够不断自我博弈来进行自我改进凯发K8娱乐官网版ღ◈。
2000年世界扑克锦标赛冠军弗格森表示ღ◈,Pluribus是一个很难对付的对手AG凯发k8真人娱乐ღ◈,ღ◈,它非常擅长在一手烂牌中下薄弱的赌注并从对手的好牌中榨取价值ღ◈。
已获得了4次世界扑克巡回赛冠军达伦·埃利亚斯也表示ღ◈,Pluribus的主要优势是它拥有混合策略的能力ღ◈,这也是人类玩家在尝试努力达到的水平ღ◈。
他还认为ღ◈,对人类来说ღ◈,混合策略是一个完全随机的操作凯发K8娱乐官网版ღ◈,大多数人在一场游戏中无法从始至终地坚持执行ღ◈。
虽然Pluribus可能会让那些世界级在线锦标赛的职业扑克选手感到震惊ღ◈,但他们并不需要担心会在以后的比赛中遇到Pluribusღ◈。
Facebook发言人Ari Entin表示ღ◈,他们不会开源Pluribus匿踪库卡隆套装ღ◈,其中一个原因是ღ◈,扑克竞赛本来就是商业性的ღ◈,他们认为将其开源可能会造成负面影响ღ◈。
近年来ღ◈,由于计算技术的进步ღ◈,以及数据集和人工智能技术愈加进步和复杂ღ◈,人工智能在游戏平台的测试已经有了许多突破ღ◈。科技巨头们也正在大力投资游戏领域ღ◈,希望人工智能在该领域的突破能带动医疗ღ◈、科学和能源等其他领域的突破ღ◈。
自谷歌AlphaGo在围棋领域打败包括柯洁ღ◈、李世石等世界围棋冠军后ღ◈,给围棋界带来了巨大震动ღ◈,人工智能与人类竞赛也一直是人们关注和讨论的话题ღ◈。
过去ღ◈,人工智能通过自我博弈(self-play)与搜索形式相结合ღ◈,已在完全信息双人zero-sum博弈中取得了许多令人瞩目的成功ღ◈。
如今ღ◈,Facebook AI和卡耐基梅隆大学的研究人员开发的这款多人扑克人工智能匿踪库卡隆套装匿踪库卡隆套装ღ◈,既是这一领域公认的里程碑ღ◈,也是电脑扑克领域的重要里程碑ღ◈。
Pluribus与人类职业选手对决的胜利表明ღ◈,尽管它在对多人游戏种缺乏已知的强有力的理论保证ღ◈,但在大规模复杂的多人且不完全信息的游戏环境中ღ◈,它拥有的自我搜索游戏算法仍然可以产生超越人类的策略ღ◈。
0871-63302133 63302233
昆明市盘龙区新兴路霖岚国际凯发k8国际首页登录
http://www.jinfupenquan.com