昨天DeepMind发布了万众瞩目的新论文;不巧一早有事外出,下午回来后赶紧补功课:首先把附加福利83张相关棋谱放到围棋宝典App的云棋谱库里,然后就开始学习各大媒体对它的报道。

1、AlphaGo族谱

版本时间战胜等级分
Fan2015-10樊麾3100
Lee2016-03李世石3600
Master2017-01顶尖s5000-
Ke2017-05柯洁5000-
Zero2017-10自我5000

(以上等级分为约略,根据论文原图目测)

版本Ke是我加的,虽然其实也是Master,但经过几个月肯定比年初的Master高一些。

趋势:水平越来越高、硬件越来越省(上表自Master开始均只有4个TPU,Lee要48个TPU,Fan是176个GPU)、学习时间越来越短(Zero从零开始到超越Master只用了40天,而Master是花了几个月)。

TPU者,张量处理器也;为深度学习量身定制的芯片,效率更高;预期普及时间:2025年。

Zero并不与AlphaGo从围棋界隐退矛盾:所谓“技术仍继续,就是不比赛”。

AlphaGo的目标远大,比如解决科技难题、医学难题,经济、军事。。。说不定还能解决哲学难题。

2、Zero出关记

Zero英文意思是:零。除了围棋最基本规则(棋盘的几何学定义、轮流落子规则、终局输赢计算、打劫等),它就是一张白纸。放弃参考任何人类棋谱,完全自我学习。

自学小时成就
0渣渣
3战5渣 贪吃蛇,以提子、填子为乐
19学会死活、实利与外势等概念
70表现得训练有素,富于变化,已达super-human水准(不知怎么译,但比职业顶尖低)
3×24超越Lee
21×24追上Master
40×24超越Master

注意:学习时间很短,是由于TPU运行得太猖狂。Nature微博的说法:“几天训练完成了近500万盘棋”。要知道1天只有86400秒。职业棋士一生平均有1000局正式比赛么?

完全是刚见到棋盘的初学者的样子,满天星、撒豆兵。有点像初中物理讲的电子云。

alphagozero对局精解(两张表让您了解AlphaGo)(1)

至541手终局,双方都很兢兢业业的填子、提子,对于“对方可能不会提自己的子”,似乎双方都充满期望和热情,毫不衰减。

此阶段对局发布了20局。

Zero追上并超越Lee的棋谱,20局。

Zero之后继续双手互搏的棋谱,20局。

Zero追上并超越Master的棋谱,20局。

还有3谱各阶段有代表性的棋谱。

,