获取更多信息请下载APP

对话DeepMind创始人:AlphaGo的下一步是什么

来源:    发布日期:2016-03-24 09:40:31   阅读量:0

  围棋只不过是一个开始,AlphaGo 的开发公司 DeepMind 在游戏、医疗、机器人以及手机方面都有规划。DeepMind 的创始人Demis Hassabis(杰米斯·哈萨比斯)说自己也被 AlphaGo 咄咄逼人又胆大包天的下法惊呆了!而在采访中,Demis Hassabis 透露了 DeepMind 的下一步。

  DeepMind大败围棋界传奇李世石,引发了对人工智能的潜力的关注——热度远超近期的任何事件。但是Google下属的AlphaGo项目并不是它唯一的计划——甚至不是最主要的计划。就像Deep Mind联合创始人Demis Hassabis在前几天说的那样,DeepMind想要“破解智能”,而关于如何达成这个目标,他有许多想法。

  Hassabis自己走的并不是寻常路,不过现在回顾起来似乎是最有意义的路。他小时候是一个象棋天才,在脑力奥林匹克运动会上5次获得Pentamind(智力奥林匹克运动会精英赛)冠军,随后在不大的年龄就与知名英国电脑游戏开发工作室一起闯出了声名,致力于开发偏重AI的游戏,比如《主题公园(ThemePark)》和《黑与白(Black& White)》),之后他建立了自己的工作室Elixir。

  在2000年代中期,Hassabis离开了游戏行业,攻读神经科学博士,并在之后的2010年联合创立了DeepMind。

  AlphaGo旗开得胜的第二天清早,Hassabis坐在了记者的面前。此刻,即使他的心思一点也没有留给媒体,也不会让人觉得奇怪。然而,他进入采访室时,言辞温和又让人愉快。他谈论了一会儿首尔四季酒店里闪耀的装潢,随后当一位Google发言人告诉他一夜之间韩国媒体界涌出了超过3300篇关于他的报道时,他看上去非常惊讶。“这简直难以置信,是吧?”他说道,“看着某种有点深奥的东西变得这么流行真是相当有趣。”

  除了AlphaGo,我们的访谈也聊到了视频游戏、次世代智能手机助手、DeepMind在Google中的角色、机器人、AI如何推动科研,以及其他的话题。深入——非常深度的谈话。


  围棋是人工智能的圣杯

  记者:对于不太懂AI或是围棋的人,你会如何谈论昨天发生的事引起的文化共鸣?

  Hassabis:围棋一直以来都是完全信息博弈游戏(perfectinformation games)的巅峰。在AI研究领域中它差不多算是圣杯。特别是在“深蓝”(破解国际象棋)之后。你知道,虽然已经投入了很多努力,但我们还没有走到那么远的地方。蒙特卡洛树搜索在10年前是一个很大的创新,但是我觉得我们对AlphaGo做的是,引进了神经网络这种直觉层面的东西,而直觉的确就是顶级围棋棋手间的差距。直播解棋时Michael Redmond甚至一度难以点清目数,而他是一个职业九段!我对于这一点感到相当惊讶,这也向你显示了为围棋写一个评估函数(valuationfunction)是多么困难的一件事。

  记者:你有没有被AlphaGo的哪一步棋震惊到?

  Hassabis:当然。我们都惊呆了,我想李世石也是,从他的表情上来看,当AlphaGo在左侧落子深入李世石的领地时,我觉得这是相当出人意料的一步棋。

  记者:因为非常咄咄逼人?

  Hassabis:既咄咄逼人又胆大包天!并且,它是在用李世石的方式与他对弈。李世石以充满创造力的战斗方式而闻名,他也展示出了这一点,我们也预计到会有这样的情况发生。棋局一开始他就在整个棋盘上四处落子,没有真正停在哪一点经营局面。传统的围棋软件对于这种打法都不擅长,它们在局部计算上不算糟糕,但是当需要全局观的时候就不行了。

  记者:举办这些比赛,首先一个重要的目的是评估AlphaGo的能力,它能打赢还是会落败。

  Hassabis:我们原来告诉大家,我们觉得比赛的胜率五五开。我仍然觉得这可能是正确的说法,什么事都有可能发生,我也知道李世石再次面对AlphaGo的时候可能会采用不同的策略。所以我觉得结果会是非常有趣的。

  另一件我想说的重要的事情是AlphaGo和深蓝之间的区别。深蓝是一个人工打造的程序,程序员们从国际象棋大师那里获得信息、提炼出特定的规则和领悟,而我们为AlphaGo注入的是学习能力,随后它通过练习和研究学会围棋,这种做法更像人类。


  从游戏行业到 DeepMind

  记者:如果AlphaGo继续一路攻城略地,下一步会是什么——未来会不会有另一场AI参与游戏的赛事?

  Hassabis:我觉得对于完全信息博弈游戏来说,围棋已经是顶峰了。当然,还是有一些其他的顶尖围棋棋手可以让AlphaGo与之对弈的,但是游戏是没有了——无限制的扑克牌游戏非常困难,多人游戏有独特的挑战,因为它是一个不完全信息博弈游戏。然后,显而易见有许多视频游戏人类都玩得比计算机更好,比如《星际争霸》,另一个在韩国很火爆的游戏。策略游戏需要一种不完全信息世界中的高水平策略能力——这被称为“部分可观测”。对于围棋来说,显然你可以看到一切都显示在棋盘上,所以这让围棋对于计算机来说显得稍微简单了一点。

  记者:战胜《星际争霸》对你个人来说是一件让你感兴趣的事情吗?

  Hassabis:可能是吧。我们只对处在我们研究项目的主要轨迹上的东西感兴趣。所以DeepMind的目标不只是战胜游戏,虽然这的确很有趣也很让人兴奋。你知道,我个人很喜欢游戏,我曾经写过电脑游戏,但这是因为它们作为测试平台来说非常有用,在这个平台上可以卸下我们对算法的想法、测试它们能做到什么地步,这是一种非常有效的方法。最终我们想要把这个东西用在重要的真实世界问题上。

  记者:1990年代后期,我在英国长大,从电脑杂志上看到你的名字与一些非常雄心勃勃的游戏联系在一起。后来当我第一次听说DeepMind、看到你的名字在里面的时候,我心想,“简直太配了”。你可以说说你是怎么从之前的游戏行业转到你现在做的事情上的吗?

  Hassabis:当然。像DeepMind这样的东西一直以来都是我的终极目标。我为此策划了超过20年。如果你很熟悉我在Bullfrog工作室的事情还有后来一些别的事,你就会知道,对于我所写的一切程序、我所参与的一切活动来说,AI是核心部分。显然Peter Molyneux (Bullfrog工作室的创始人之一)的游戏都是AI游戏。当我16还是17岁的时候,我在编写《主题公园》的程序,那对我来说是一段非常重要的时间,让我意识到了如果我们真的试图拓展AI的能力、它能强大到怎样的地步。

  我们卖出了数百万份《主题公园》的游戏,这是因为游戏里的AI能够适应你玩游戏的方式、做出改变。我们在此基础上继续前进开拓。后来我离开了游戏行业,回到学术圈和神经科学界,因为我在2000年代中期感到我们在AI研究方面已经做到了极限——当你还需要真的做出一款游戏的时候。AI研究难以继续深入,因为发行商们只想要游戏,是吧?

  记者:所以那时只是因为AI最显而易见的应用就是游戏吗?

  Hassabis:当然,我是这么觉得的,我也确实认为我们当时做的AI极为前沿、让人几乎难以相信。我觉得1990年代学术圈还没有什么动静,这些新技术——神经网络、深度学习、强化学习还没有真正得到推广。所以事实上那时候最好的AI在游戏行业。它更像是有限状态机(finite-statemachines),但相当复杂、也能自我适应。

  《黑与白》之类的游戏中有强化学习,我仍然觉得这是强化学习用在游戏中的最复杂的一个例子。但是,随后在2004年、2005年左右的时候,游戏行业变得更多的是在依赖于画质、续作等,我认为是时候为了DeepMind的建立而去收集不同的信息了。那就是神经科学。我想要从大脑如何解决问题中获得灵感。

  记者:这可能看上去是唾手可得的成果,不过如果你们现在将AI的进展应用到游戏上,会怎么样?

  Hassabis:我觉得应该会很惊人。最近EA有人联系过我,我们应该会做的。但是有带宽的限制在,并且我们现在精力集中在医疗和推荐系统之类的方面上。不过可能到某个时间我们就会做这件事,制作一些智能的、有适应能力的AI对手,并且我觉得游戏开发者们也会喜欢这样的。

  记者:我刚才想象了一下你在家打视频游戏,在NPC(非玩家控制角色)面前比我还要疲于奔命的样子。

  Hassabis:当然,在MMG(大型多人游戏)和类似游戏里这总是让我很受挫。我从来没有真的为这些游戏着迷,因为NPC都太蠢了。它们没有记忆,不会改变,不理解上下文。我觉得如果有了这种可以学习的AI,游戏就完全上升到另一个层次了。


  DeepMind 的下一步:医疗

  记者:这周你带来的消息里,AI未来主要的用途是医疗、智能手机助手以及机器人。举例来说,IBM的Watson在癌症诊断方面有所建树——DeepMind可以带来什么?

  Hassabis:现在还只是雏形。我们几周前宣布了一项与NHS(英国国家医疗服务体系)的合作,不过这只是刚开始着手建立一个利用机器学习力量的平台。我觉得Watson与我们做的事情非常不同,从我的理解而言——Watson更像是一个专家系统,所以它是另一种形式的AI。这类AI做的事情会是医疗图像的诊断,然后可能有对于自我量化(quantifiedself)或是重要迹象的长期追踪,帮助人们有更健康的生活状态。我觉得这很适合用强化学习。

  记者:在与NHS的合作中,你们推出了一款看上去没有怎么用到AI或是机器学习的App。为什么NHS要用这个App,而不是其他厂商推出的软件?

  Hassabis:NHS的软件在我的理解中是相当糟糕的一个东西,所以我觉得第一步就是试着让它进入21世纪。它们并不是移动端的,完全不是我们作为今天的消费者理所当然认为能看到的那种样子。并且我觉得对于医生和护士来说它用起来让人觉得很挫败,降低了他们的效率。所以我觉得第一步是,帮助他们用上更有用的工具,比如可视化和基础统计信息。我们认为,我们会实现这样的功能,然后看清我们到底需要什么,随后再将更纯熟的机器学习技术运用其中。

  记者:这一切有多简单?

  Hassabis:当然,呃,好吧,我们正在免费做这件事,这让它变得很简单!这与大部分软件公司都有很大的不同。大部分时候是大型跨国公司制作这种软件,所以他们不会真正把注意力放到用户身上,而我们在设计它的时候更像是一种初创企业的方式,从用户那里倾听反馈,从某种程度上来说与他们一起设计一个软件。


  未来的核心:智能手机助手

  记者:那么让我们谈谈智能手机助手。我看到你第一天的时候演讲PPT里有一张图来自电影《她(Her)》——这会是最终形态吗?

  Hassabis:不,我的意思是,关于智能手机助手是什么样,《她》只是一种盛行的主流观点。我只是觉得,我们会想要让这些智能手机助手之类的东西真正变得智能、理解上下文、对于你要做什么有更深的理解。现在,大部分这样的系统都极为脆弱——一旦你偏离了预先编程输入的模板,它们就完全变得毫无用处。

  记者:为了改善这些,需要有什么突破?

  Hassabis:我们可以的,只不过我觉得你需要一个不同的方法。再说一次,这是预编程和学习的二分法。目前基本所有的智能手机助手都属于特殊案例和预编程的,这意味着它们很脆弱,因为只能做预编程写好的事。然而真实的世界非常混乱,用户们也会在你无法提前知晓的情况下,做着不可预知的事情。我们对 DeepMind 的信念是,这也是最根本的原则,通往人工智能的唯一道路,是从地基开始打起,而且变得通用。

  记者:AlphaGo 从学习很多游戏模式过程中顺利起飞,这对于智能手机怎么使用呢?它的输入是如此的多变?

  Hassabis:是啊,所有得有上万吨的数据,而你可以从中学习到很多东西。事实上, AlphaGo 的算法,我们打算在未来几个月尝试的是,摆脱监督式学习的出发点,让它完全自我发挥,从一无所有的状态开始。它会需要更长的时间,因为当你采用随机方法的时候,其中的审查和错误会需要更多的时间训练,也许是几个月。但是,我们认为有这个可能性。

  记者:是因为算法现在能达到的程度,所以你认为这是可能的么?

  Hassabis:不是的,我们本来可以这样做的。它不会使程序更强大,它只是做着纯粹的学习。所以会有一些非监督的部分。我们认为这个算法能够在非监督的状态下工作。我们去年做了 Atari 游戏,在像素的层面玩游戏,而不会受人类知识的禁锢,它会在屏幕中做一些随机的动作,开始游戏。

  记者:对于 Atari 游戏来说更加容易,是因为失败的状态更加明显么?

  Hassabis:的确更加容易,因为分数更有规律。在围棋中,不管最终赢得还是输掉比赛,你也仅仅得到一个分数。这就是所谓的信用分配问题(Credit Assignment Problem):这个问题是,你在围棋中走了几百步,但不知道具体哪一步会为最终的胜利或失败负责,其中的信号非常微弱。而在大多数的 Atari 游戏中,所做的大多数事情都会给予分数,所以就得到了更多的面包(奖励)去仿效。

  记者:你可以给个时间表么?当这些事情开始给手机市场带来显著性差异的时候。

  Hassabis:我认为在未来的两到三年会开始看到它。我的意思是,它在开始的时候是非常微小的,只有很小的部分会工作得更好。也许在未来的 4 到 5 年,甚至 5 年更多,你可以看到在功能上大的变化。


  为何Google的支持非常重要

  记者:你确定了未来各种各样的可能性,而这件事是和 Google 联系在一起最明显的事情?

  Hassabis:是的。

  记者:你有没有得到任何指示,这些事情被期待如何纳入到 Google 的产品路线图或商业模式中?

  Hassabis:不,在如何最优化研究进展方面,我们有很强的主导权。这是我们的使命,也是为什么我们加入了 Google,这样我们可以给研究进行涡轮增压。这是发生在过去几年的事情。当然,我们实际上也致力于很多 Google 内部的产品,但是它们是非常早期的阶段,所以还没准备好公布。当然我认为智能手机助手是非常核心的,这是 Google 未来的核心。

  记者:Google 有另外的举措,例如 Google Brain,它推出了机器学习的特征,像 Google 图片搜索和其他面向用户的东西。

  Hassabis:是的,几乎无所不在。

  记者:你的公司和 Google Brain 有互动吗?你们有没有重叠的部分?

  Hassabis:当然,其实我们是非常互补的。我们每周都有交谈。Google Brain 主要致力于深度学习,这也是为什么我们发明出了令人惊喜的 Google 图片搜索。他们正在做着现象级的工作。另外,他们的团队在山景城,所以他们离产品团队更近,他们的研究周期是12 到 18 个月。我们有更多算法开发的工作,我们倾向于为需要两三年研究的事情做研究,而且不需要在开始的时候就有直接的产品焦点。

  记者:Google 对 AlphaGo 的支持有多重要?

  Hassabis:这是非常重要的。AlphaGo 在比赛中实际上并没有使用那么多硬件,但我们需要大量的硬件来训练它,做各种不同的版本,并它们在云端互相比赛。这需要相当多的硬件才能高效完成,所以如果没有这些资源根本无法完成。


  不看机器人,关注科学的进展

  记者:我平时在日本,并倾向于认为日本是机器人的精神家园。我现在在日本看到的机器人以两种方式使用。工业机器人和迎宾机器人,对于这个领域现在的状态,你有什么想法?

  Hassabis:是的,我认为你说的工业机器人有很漂亮、很能干的身体,但缺少了智慧。而迎宾机器人和智能手机助手都是预编程了很多针对模板的反应,但如果你做一些其他事情,例如去越野的地方滑雪,那它们会感到很困惑。

  记者:所以我猜测,一个很明显的问题是,机器学习会如何强化机器人的能力?

  Hassabis:是的,这是完全不同的方法。你可以从头开始建立学习新事物,并能应对突发事务的能力,我认为这就是当机器人或软件应用程序在真实世界中和用户交互时所需要的——它们需要拥有这种能力,并妥善使用。我认为学习曲线最终必须采用正确的做法。

  记者:对于可学习的机器人来说,什么是你看到的最直接使用案例?

  Hassabis:其实,我们对此没有太多的想法。显然,自动驾驶汽车是一种机器人,但目前来说还是狭义的人工智能,虽然他们使用了计算机视觉里面一些可学习的人工智能——特斯拉采用了一种基于深度学习的标准、现场的计算机视觉方案。我相信日本在老年护理机器人、家庭清洁机器人上面有很多思考,我认为这对社会会非常有用。

  记者:为什么在这些类型的案例中,一个更基础的学习方法,能带来如此显著的提高呢?

  Hassabis:你需要思考这样的问题:“为什么我们还没有拥有这些东西?”为什么我们没有一个机器人,可以跟在你后面清理房子?原因在于,每个人的房子在布局、家具等方面有很多的不同,有时候它是混乱的,有时候却很干净。因此,很难通过预编程的方法,找到整理你的房子的解决方案,而且还得考虑个人偏好。这真的是非常复杂的问题。我们认为,这些事情对于人类来说很简单,但实际上我们必须处理非常复杂的事情。

  记者:我们什么时候能有更先进的机器人,在“足够好”的引爆点到来之前?我们会在有意义的达到人类水平的交互和围绕这个奇怪的小玩意工作之前,就停止研发吗?

  Hassabis:是的,我的意思是,也许吧。我想每个人都会以合理的价格购买一个机器人,它可以摞好盘子,并清洗干净——这些哑巴吸尘器非常受欢迎,但无论如何,他们并没有真正的智能。所以,我觉得其中的每一步,逐步地进展,就会发明出有用的东西。

  记者:那么,你对人类、机器人和人工智能在未来的交互,有什么遥远的期望?

  Hassabis:我自己对机器人没多少思考。我自己对人工智能的使用感到兴奋的领域是科学,能够推动它更快的发展。我想看到人工智能辅助的科学,那样会有一个人工智能研究助手,它可以做很多乏味的工作,阅读有趣的论文,从海量的数据中找到结构,并把它们呈现到人类专家和科学家面前,以实现更快的技术突破。

  我几个月前在欧洲核子研究中心做演讲,很显然它们创造出比地球上任何地方都多的数据,我们都知道在它们海量的硬盘中,可能会有某个新的粒子发现,但没有人能抽出时间做这件事情。所以如果有一天人工智能参与寻找到一个新的粒子,那么是一件非常酷的事。■

  (本文由新智元公众号编译 英文来源:The Verge)