时间:2016-03-09 18:04:07 来源: 复制分享
“人机世纪大战”第一局落下帷幕,李世石认输,这是让很多人没有想到的。原本被寄以厚望的李世石,到底为什么会输于古力口中“业余六七段”的Alphago?
Alphago深度学习发挥作用
“国际象棋每步大约会出现35种左右的走位可能,而围棋的走位可能则高达250种,每一步250种相乘就意味着整局比赛会出现多到几乎无穷尽的走位方案。”谷歌DeepMind实验室主管德米斯-哈撒比斯(Demis Hassabis)说道。Alphago在击败欧洲围棋冠军樊麾时学习了3000万盘棋,而经过将近半年的学习,这个数量已经增长到1亿以上。
AlphaGo的核心是两种不同的深度神经网络。“策略网络”(policy network)和“值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。
其中,“值网络”负责减少搜索的深度AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而“策略网络”负责减少搜索的宽度面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。利用蒙特卡洛拟合,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些有戏的棋着。
这意味着Alphago属于典型的力战型棋风,善于敏锐地抓住对手的弱处主动出击,以强大的力量击垮对手。李开复先生说现在的AlphaGo和1997年击败世界象棋冠军的深蓝相比,从围棋到象棋的难度高了很多,是难度非常大的跳升。
近年来深度学习的技术,非常大的数据量和计算量可以扩张地使用,超过了我们的想象。同时我们也对人所谓的智力,当时有一些错误的幻想,实际上深度学习的成长非常快速,它可以非常好地利用更多地机器。所以在任何客观、科学工程评估的领域,包括游戏,其实是金融、搜索、广告等各方面的应用,人类基本上不会再有更多的机会跟机器来竞争了。
而今天AlphaGo在战术和策略上的选择证明了这一点,在落后的情况下它也有策略,而不是在心理上打心理战。今天AlphaGo先出现失误,随后追赶而上,令我们不得不重新去思考机器的学习和优化能力。
Alphago前期的“表现”让李世石轻敌
但是李世石不同,李世石似乎出现情绪上的波动。李世石出生在韩国一个鸟岛上,坚韧不认输,这让他成为愈挫愈勇的棋手。每个棋手都有自己的棋风,今天他占优势之后反而出现失误。这个时候出现戏剧性变化令我们大跌眼镜。
樊麾曾说比赛是10月初,5号到9号五天,其实是一天两场,一共10盘。5盘正式的,还有5盘非正式的快棋。正式的全输了,但非正式的快棋我赢了两盘。而李世石今天也是经历了戏剧性的局面,在开始占优势的情况下,最后被逆转直至认输。
古力认为,李世石在中期时的优势很大,而Alphago则屡屡出现一些很奇怪的下法,犯一些低级错误,这导致了李世石的轻敌,比赛结束时,李世石还剩半个小时左右的时间,而Alphago只剩不到十分钟,这说明李世石没有花很多时间用来思考,这也是他轻敌的一个证据。
CSDN创始人蒋涛在现场表示,Alphago展现出来的实力忽高忽低,导致李世石出现了误判,过于轻敌,导致后期一发不可收拾。
现今世界围棋第一人柯洁在认为觉得机器在心理方面还需要突破,必须每步棋都是最佳的,人类才完全没有可能战胜它。今天来看,并不是机器需要突破心理,而在与人是否可以突破自己。
两个人下棋的时候,你常常会观察和琢磨对方的情感和心理。它是紧张了,害怕了,你在想象对方的同时,这种作用对方也会感到到,折射回来。但是现在对面是电脑,就是你面对一堵墙,你所有的感觉全部都被打了回来,你知道它没有心态的波动。
在前期AlphaGo有重大失误的局面下,李世石求赢不想输。在求稳的心态下出现失误,心理波动很大,下到后来会觉得,即使优势再大最后也会输。很多情况下李世石自己也已经觉得无力翻盘了。
智力消耗、体力消耗、精神压力呈递增趋势,再加上舆论环境等,Alphago可以“两耳不闻窗外事,一心只下好围棋”,但人类是高感知生物,情绪易受到外界环境的干扰。
柯洁就表示“程序强于人类很重要的一点就是不会受情感因素干扰。”机器的水平大概就是冲职业段之前的水平,虽然职业还到不了,但是无限接近于职业了。再加上机器大量的学习和算法,感情上没有波动,这令高级的棋手面对机器时是和以往面对人类对手完全不同。
今天这个局面很多人都没有想到,胜利在望之际,李世石输掉比赛。经此一役,接下来的四场比赛更值得期待。
微信搜索“IT之家”关注抢6s大礼!下载IT之家客户端(戳这里)也可参与评论抽楼层大奖!