直击亚洲首场德扑“人机大战”
文/记者 闫超华 摄影 闫超华 编辑 李乃麟
设在海南生态软件园里的中国智力运动产业基地智力运动馆中的比赛场地非常安静,丝毫看不出“火药味”。但号称亚洲首场人工智能与顶尖扑克牌手对战的“冷扑大师”(Libratus)V.S.中国龙之队巅峰表演赛,却正在紧张进行着。这场人工智能对战棋牌高手的大战,于4月6日在海南生态软件园举办。此次赛事为期5天长达45小时。
最终“冷扑大师”完胜中国龙之队,它也被媒体誉为“比‘阿尔法狗’(AlphaGo)情商更高”的AI机器人。至此,围棋和扑克分别作为完美信息、不完美信息这两类人机对弈模式的代表,AI的能力已在这两类赛事中获得验证。此次人机扑克大战巅峰表演赛的发起人李开复博士表示,透过“冷扑大师”和龙之队表演赛的对战结果,人机对战基本没有悬念。
人机对战,人类胜率越来越小,打败人类的AI将走向何处?北京科技报记者亲赴龙之队与“冷扑大师”的对战现场观战,并对“冷扑大师”开发者、卡内基梅隆大学教授托马斯·桑德霍姆(Toumas Sandholm)进行了专访。
置身赛场近距离观战
机器“凶猛无畏”,牌手压力山大
赛场设置让人“蒙圈”
赛事承办方传奇扑克合伙人张宇告诉记者,本次赛制为降低发牌中的运气因素,机器人采用复式对称发牌。中国龙之队的6名选手分为AB两组,分别在两个房间对战“冷扑大师”。6位选手每人同时打两手牌,两两成对的牌手其中一人将拿到与配对牌手对打的机器人底牌,A组与B组彼此不能碰面交流,截止到10日完赛时完成36000手牌。
不过,作为德扑初级爱好者的记者,刚看到比赛台面的一瞬差点蒙圈:比赛台面虽是标准的德州扑克牌桌,但布置却不是按标准多人位布置,而是布置成一个牌手座位面对2台电脑,这样的人机大战使牌手们压力山大。
中国龙之队的牌手也表示,虽然参与过多次高手对战,但他们也是提前适应了一阵子才适应与机器打牌的方式。特别是对于习惯了多人对抗、以计取胜,通过察言观色的心理较量结合自身特色打法的专业牌手来说,面对电脑时毫无外在信息可供心理战术分析。
▲Noam Brown博士 在核对牌手的积分
“冷扑大师”竟会使诈
在采访中国龙之队队长常春藤资本合伙人、德州扑克大赛WSOP金手链冠军得主杜悦先生时,他表示他此次也是第一次与AI机器人对战,“冷扑大师”是科学研究的杰作,“冷扑大师”的模型是按照博弈论里采取的纳什均衡理论研发的,它的打法非常稳健、理性,面对人类对手毫无畏惧之心,进攻性强,也常使诈,使对手很难摸清打法。
“如果用武功中的无数门派形容,‘冷扑大师’就是内功深厚的大师,它可以把自己放在不败之地,能够找准对手的漏洞进攻,想用‘乱拳打死老师傅’的打法是不起作用的,起初它在比赛中采取的是松凶型的风格吃了很多亏,下午改换了稳健打法,效果就好了很多。”杜悦说。
博弈论+数学击败顶尖牌手
“冷扑大师”的开发者之一、卡内基梅隆大学诺姆·布朗(Noam Brown)博士介绍,“冷扑大师”(Libratus)的策略并非基于专业玩家的经验,所以它的玩牌方式可能有明显的不同。
“冷扑大师”使用算法分析德州扑克规则,基于在匹兹堡超级计算机中心大约1500万核心小时的计算,它解决了“阿尔法狗”也无法处理的不完美信息,从而建立了自己的策略。而且它能够在比赛中,通过预测所有未来步骤的胜率来思考自己的下一步。
“冷扑大师”的研发基础基于博弈论,并且结合了大量的数学和概率,扑克程序在赛前不曾研拟历史牌谱,直接在比赛同时动态优化胜率最高的数学模型,利用战略推理揭露玩家底牌的隐藏信息,从而建构出智能化的AI谈判策略套路。在技术研发的背后,其实电脑并不对人类玩家的心理战术进行任何模拟或分析,反倒以博弈论加上大量数学分析打败了顶尖牌手。
“冷扑大师”在三个主要技术模块中都使用了新的算法:包括比赛前采用近于纳什均衡策略的计算(Nash Equilibrium strategies)、每手牌中运用终结解决方案(Endgame Solving),以及根据对手能被识别和利用的漏洞,持续优化战略打得更为趋近平衡。
▲托马斯·桑德霍姆教授通过《科技生活》周刊转达对中国公众的问候,并表示愿意参与更多人工智能方面的科普工作,包括尝试举办“冷扑大师”与中国普通公众的对战。
对话“冷扑大师”开发者
AI处理“不完美信息”应用广泛
“冷扑大师”的开发者——卡内基梅隆大学托马斯·桑德霍姆(Toumas Sandholm)教授,在开赛第二天就来到比赛现场。北京科技报记者就“冷扑大师”打法背后的科技以及人工智能发展方向等问题对教授进行了专访。
Q(北京科技报记者):您感觉本次比赛进展得怎么样?中美玩家是否表现出不同的特点呢?
A(托马斯·桑德霍姆教授):主办方组织得非常好,直播的流量很大,我很开心,这说明很多人关心人机大战。中国龙之队队员表现非常好,说明他们在赛前做了充分的准备。从背景特点上分析中美玩家的特点,中国牌手打法更全面,和美国选手擅长一对一的特点不同。
Q:每打一张牌“冷扑大师”要经过多少次运算?
A:我们的超级计算中心有50台机器,每台机器里有28个核的芯片,非常大的运算量,比赛中每台电脑每手牌的动作界面要经过50*28核的计算,计算时间要10-45秒。
Q:“冷扑大师”是如何识别对手信息从而打诈牌的?
A:打诈牌很多人认为是心理战术,但对于机器来说是数学运算战术,机器根据条件输入动作选项,根据纳什平衡定律结合它们的算法,可以让AI自动选择出类似于人类诈牌的战术。
玩德州扑克需要推理能力和心理战术,这对于机器来说很难模仿,而“冷扑大师”在面临不完全或误导信息时,有进行推理的能力。
Q:“冷扑大师”与“阿尔法狗”有哪些不同?
A:“冷扑大师”没有用专业的牌局进行神经网络的训练,不同于“阿尔法狗”用大量的棋局做训练。“冷扑大师”用的是随机生成的牌局(随机产生公共牌、底池筹码、玩家拿牌概率)和尝试性的动作带来的结果(在随机生成的输入情况下模拟玩家跟牌后的结果)作为训练数据。
“冷扑大师”还利用了博弈论,与“阿尔法狗”不同。“冷扑大师”系统不通过分析大量可能的下一步完成任务,这个由卡内基梅隆大学(CMU)构建的新系统通过平衡风险与收益来决定自己的下一步,在纳什均衡定义中的完美游戏状态。
“冷扑大师”相对于“阿尔法狗”的更高明之处在于“冷扑大师”不需要提前背会大量棋谱,也不局限于在公开的完美信息场景中进行运算,而是从零开始,基于扑克游戏规则针对游戏中对手的劣势进行自我学习,并通过博弈论来衡量和选取最优策略。这也是“冷扑大师”在后程越来越凶悍,让人类玩家难以抵挡的原因之一。
Q:“冷扑大师”是怎样进行自我学习的?
A:“冷扑大师”是有学习能力的。但它并不是一味追求最优方案,因为最优方案计算量太大,所以它们会从接近最优化作为一个起点来计算。每天比赛结束后,机器会复盘和修补漏洞。
每个牌局结束后的夜晚,匹兹堡市超级计算中心(Bridges Super Computer)的超级计算机Bridges还在执行计算,用以优化“冷扑大师”的策略。而在白天的比赛过程中,Bridges用于计算每一手的终结游戏策略,它提供三种类型的计算选项,称为节点:常规、大型和超大型。Bridges不是当今世界最大、最快、最强劲的超级计算机,但它可能是面向公众开放的最大、最快、最强劲的超级计算机,在Bridges的帮助下,原本在个人电脑上耗时数月的计算,仅几个小时就能搞定。
Q:对战中,普通人类玩家往往不按牌谱出牌,会不会更容易赢呢?
A:不。机器对战普通玩家肯定是更简单的,普通玩家会更容易被电脑打败,纳什平衡定律是寻找最优方案的定律,普通人是不懂战术和最优方案的,所以越是偏离最优方案,机器优势越大。
Q:在打败了人类玩家之后,“冷扑大师”下一步的发展方向是什么?
A:基于今年1月,“冷扑大师”在美国匹兹堡人机扑克赛事中,大胜人类顶尖牌手所获得的成功,“冷扑大师”开发的应用水平已足以处理扑克对战中的“不完美信息”,背后的人工智能系统具备更为成熟的战略式推理和AI谈判能力。
这类相关技术未来可延展到其他竞技类游戏、商业策略、商务谈判、网络安全、军事策略、定价策略、理财策略、竞拍策略、政治宣传、医疗规划等领域。
我想,人工智能发展的终极目标,是通用人工智能(AGI)。通用人工智能可以解决任何一个问题,而不是像“冷扑大师”(Libratus)或者“阿尔法狗”这样只能专注于扑克或者围棋。想要实现通过人工智能(AGI),就得让人工智能学会解决不确定性问题,这也是此次人机大战的重大意义之一。■