Zac|逆天的阿尔法狗零_IT技术分享博客

　　上星期四，10月19号，研发了阿尔法狗(AlphaGo)的Google人工智能部门DeepMind，发表了一篇标题为《从头开始》的博文，介绍了他们同一天发表在Nature杂志的论文：《不依赖人类知识掌握围棋》。

　　简单说，在开发了吊打人类的围棋AI阿尔法狗之后，DeepMind现在又开发了阿尔法狗零(AlphaGo Zero)，而这个阿尔法狗零：

　　完全没有学习人类棋谱，纯自学

　　72小时(也就是3天)后超过2016年3月战胜李世石那个AlphaGo Lee版本，战绩100:0

　　21天后超过2016年底60:0战胜所有人类高手、2017年5月3:0胜柯洁那个AlphaGo Master版本，，战绩89:11

　　第40天超过所有其它AlphaGo版本，成为地表最强围棋选手

　　最令人震惊的是，AlphaGo

Zero在3天之内，纯靠自学，达到了人类顶尖高手的水平。以前写的人工智能与SEO帖子里提到过，以前的AlphaGo是在学习大量人类历史棋局之后，再开始巨量自我对局。这次AlphaGo

Zero则完全没有学习人类棋局，从零开始就是自我对局，3天内完成490万盘自我对局，并达到了吊打AlphaGo Lee版本的水平。

　　下图是AlphaGo Zero水平增长曲线：

　　可以看到，3天内水平突飞猛进，然后变得平缓，但还是增长中。

　　以前的AlphaGo达到AlphaGo Master版本水平，走了一年多时间，大致是按“月”计时的，AlphaGo

Zero的进步则是按“天”，甚至“小时”的节奏了。现在看来，AlphaGo之所以要那么长时间，很可能是被人类带歪了，被人类历史棋局误导了，被人类知识和思路限制了。AlphaGo

Zero彻底抛弃人类现有知识，也就没有受到人类知识的局限，是真正天马行空地找到最优解的自由战士。

　　既然抛弃人类围棋知识，刚开始自我对局时必然是随机的，或者说是胡来的。AlphaGo

Games这个网站上公布了很多实际棋局，感兴趣的可以研究一下，有很多有趣的地方。最初的AlphaGo

Zero自我对局确实就是乱下的，但很快发现了人类也掌握的大局观、布局、收官等知识，但有的东西是比较晚才掌握的，比如征子。

　　聂卫平和柯洁都说过，看了AlphaGo的棋，发现很多人类对围棋的认识是错误的。在某种角度说，AlphaGo

Zero没有历史包袱，没有胜负的心理包袱，没有任何人类思维限制，它对围棋的探索是自由的、没有局限的，目标是全局的最优解，所以很可能它的下法就是终极正确的。

　　能让人类聊以自慰的是，AlphaGo Zero自由探索的结果说明，人类数千年的研究探索有些是错的，但总体上没有错得离谱，AlphaGo

Zero从白纸一张开始，最后的下法收敛到与人类差不多的方向，比如肯定了人类的一些定式是正确的，AlphaGo Zero胡来一阵之后也是这么下。

　　有点吊诡的是，AlphaGo

Zero的训练方法有点像是回归到穷举的暴力算法上，把各种可能性走一遍，看看哪个会赢。据计算，围棋的所有可能走法超过了宇宙中所有原子的数目，所以现在AlphaGo

Zero已经下过的棋局，在样本数目上，一定是极小比例的。

　　但就是这极小样本，已经使AlphaGo Zero达到了这个水平。随之而来的疑问是，在AI领域，大数据更重要还是模型更重要?在AlphaGo

Zero之前，之所以近两年人工智能发展迅猛，大家都认为海量数据的获得是关键。凡是取得重大进展的领域，都是因为有了数据，语音、文字、图像、视频、医疗、自动驾驶，无一例外。

　　现在，AlphaGo

Zero不需要现有数据了，给它规则和模型，它就自己推演出一切了。这是要创世吗?能移植到其它领域成为通用智能吗?细思有点恐。

　　Google之所以伟大(至少到目前为止)，就在于别人都觉得它已经取得了巨大成就，而它经常在别人忙着赞美和跟进时，毫不犹豫地推翻自己的既有东西，用另一种方法取得更惊人的成就。

　　我近一年参加SEO行业会议的演讲主题基本上都是以人工智能为主的。作为一个SEO，之所以这么关注人工智能，是觉得不知道什么时候同样的智能会用在搜索算法上，why

not?如果有一天人工智能表明，现在搜索算法判断内容质量的方法是错的，判断权威性的方法是错的，判断垃圾链接的方法是错的，AI有正确的方法，排名算法随之改变，那么我们以前使用的SEO方法还适用吗?