上星期四,10月19号,研发了阿尔法狗(AlphaGo)的Google人工智能部门DeepMind,发表了一篇标题为《从头开始》的博文,介绍了他们同一天发表在Nature杂志的论文:《不依赖人类知识掌握围棋》。
简单说,在开发了吊打人类的围棋AI阿尔法狗之后,DeepMind现在又开发了阿尔法狗零(AlphaGo Zero),而这个阿尔法狗零:
完全没有学习人类棋谱,纯自学
72小时(也就是3天)后超过2016年3月战胜李世石那个AlphaGo Lee版本,战绩100:0
21天后超过2016年底60:0战胜所有人类高手、2017年5月3:0胜柯洁那个AlphaGo Master版本,,战绩89:11
第40天超过所有其它AlphaGo版本,成为地表最强围棋选手
最令人震惊的是,AlphaGo
Zero在3天之内,纯靠自学,达到了人类顶尖高手的水平。以前写的人工智能与SEO帖子里提到过,以前的AlphaGo是在学习大量人类历史棋局之后,再开始巨量自我对局。这次AlphaGo
Zero则完全没有学习人类棋局,从零开始就是自我对局,3天内完成490万盘自我对局,并达到了吊打AlphaGo Lee版本的水平。
下图是AlphaGo Zero水平增长曲线:
可以看到,3天内水平突飞猛进,然后变得平缓,但还是增长中。
以前的AlphaGo达到AlphaGo Master版本水平,走了一年多时间,大致是按“月”计时的,AlphaGo
Zero的进步则是按“天”,甚至“小时”的节奏了。现在看来,AlphaGo之所以要那么长时间,很可能是被人类带歪了,被人类历史棋局误导了,被人类知识和思路限制了。AlphaGo
Zero彻底抛弃人类现有知识,也就没有受到人类知识的局限,是真正天马行空地找到最优解的自由战士。
既然抛弃人类围棋知识,刚开始自我对局时必然是随机的,或者说是胡来的。AlphaGo
Games这个网站上公布了很多实际棋局,感兴趣的可以研究一下,有很多有趣的地方。最初的AlphaGo
Zero自我对局确实就是乱下的,但很快发现了人类也掌握的大局观、布局、收官等知识,但有的东西是比较晚才掌握的,比如征子。
聂卫平和柯洁都说过,看了AlphaGo的棋,发现很多人类对围棋的认识是错误的。在某种角度说,AlphaGo
Zero没有历史包袱,没有胜负的心理包袱,没有任何人类思维限制,它对围棋的探索是自由的、没有局限的,目标是全局的最优解,所以很可能它的下法就是终极正确的。
能让人类聊以自慰的是,AlphaGo Zero自由探索的结果说明,人类数千年的研究探索有些是错的,但总体上没有错得离谱,AlphaGo
Zero从白纸一张开始,最后的下法收敛到与人类差不多的方向,比如肯定了人类的一些定式是正确的,AlphaGo Zero胡来一阵之后也是这么下。
有点吊诡的是,AlphaGo
Zero的训练方法有点像是回归到穷举的暴力算法上,把各种可能性走一遍,看看哪个会赢。据计算,围棋的所有可能走法超过了宇宙中所有原子的数目,所以现在AlphaGo
Zero已经下过的棋局,在样本数目上,一定是极小比例的。
但就是这极小样本,已经使AlphaGo Zero达到了这个水平。随之而来的疑问是,在AI领域,大数据更重要还是模型更重要?在AlphaGo
Zero之前,之所以近两年人工智能发展迅猛,大家都认为海量数据的获得是关键。凡是取得重大进展的领域,都是因为有了数据,语音、文字、图像、视频、医疗、自动驾驶,无一例外。
现在,AlphaGo
Zero不需要现有数据了,给它规则和模型,它就自己推演出一切了。这是要创世吗?能移植到其它领域成为通用智能吗?细思有点恐。
Google之所以伟大(至少到目前为止),就在于别人都觉得它已经取得了巨大成就,而它经常在别人忙着赞美和跟进时,毫不犹豫地推翻自己的既有东西,用另一种方法取得更惊人的成就。
我近一年参加SEO行业会议的演讲主题基本上都是以人工智能为主的。作为一个SEO,之所以这么关注人工智能,是觉得不知道什么时候同样的智能会用在搜索算法上,why
not?如果有一天人工智能表明,现在搜索算法判断内容质量的方法是错的,判断权威性的方法是错的,判断垃圾链接的方法是错的,AI有正确的方法,排名算法随之改变,那么我们以前使用的SEO方法还适用吗?