DeepMind推出AlphaGo围棋教学工具围棋学习新纪元来啦_[#第一枪]

发布时间：2021-06-07 13:32:07 阅读：次来源：喷枪厂家

雷锋网 AI 科技评论消息，北京时间 12 月 11 日晚，DeepMind 在 twitter 上宣布推出围棋教学工具 AlphaGo Teach。

上图中，标有白圈的黑子表示上一手，虚线圆圈表示 AlphaGo 下一步可能的走法，实线圆圈表示人类选手下一步可能的走法，圆圈中的数字表示 AlphaGo 评估的黑子胜率。

从官网上可以看到，该工具通过利用 231000 盘人类棋手对局、75 盘 AlphaGo 与人类棋手对局的数据，能对围棋近代史上 6000 种比较常见的开局给出分析。通过这个工具，大家可以探索围棋奥妙，比较 AlphaGo 的下棋路数与专业选手、业余选手的不同点，从中学习。

官网上对于工具的使用也有相关说明：

如何使用这一工具？

点击棋盘上的彩色圆圈，或使用棋盘下方的导航工具，即可探索不同的开局变化，以及 AlphaGo 对于每一步棋的黑棋胜率预测。

圆圈中的数字代表了该步棋的黑棋胜率。当轮到黑棋落子时，数值越接近 100 表示黑棋优势越大；当轮到白棋落子时，数值越接近 0 表示白棋优势越大。50 则表示均势。

了解 AlphaGo 的胜率预测

AlphaGo 的下法不一定总是具有最高的胜率，这是因为每一个下法的胜率都是得自于单独的一个 1000 万次模拟的搜索。AlphaGo 的搜索有随机性，因此 AlphaGo 在不同的搜索可能会选择胜率接近的另一种下法。

除了官网上的简单介绍，作为 DeepMind 围棋大使、AlphaGo 的「教练」，樊麾也在其个人微博上宣布「AlphaGo 教学工具终于上线。」

他表示，

教学工具共有两万多个变化，三十七万多步棋组成，通过 AlphaGo 的视角，分析并建议围棋开局的诸多下法。同时每步棋 AlphaGo 都会给出自己的胜率分析，希望 AlphaGo 对围棋的独特理解可以给我们一些启发。

本教学工具使用的版本是 AlphaGo Master。具体信息可以在主页上看到，工具设有包括中文简体在内的多个语言。

同时，樊麾也从 AlphaGo 的教学中举了几个有意思的例子，并进行了幽默地解说。「下边的几个图是我从万千变化图中发现比较有冲击力的几个，类似的变化图有很多很多，大家可以自己找找。」

原来二路虎不见得好！

对付迷你中国流的新办法！

小林流也不是只有大飞挂！

原来这里还可以飞！

妖刀定式！

而在看到樊麾老师的微博之后，大家也开始了各色各样的调侃。

@ 楼天，「有 21 天从入门到精通系列课程吗？」

@ 我就是那一片浮云，「完了，十段棋手猛烈增加。」

@ 自动高速公路，「做成 app 就可以成为围棋比赛作弊器了。」

@ 于缚风，「围棋辅导班的老师没法讲课了。」（围棋老师表示哭晕在厕所）

看完了大家的调侃，来看看专业棋手们怎么说。

世界围棋冠军、职业九段棋手常昊表示，教学工具不一定是标准答案，更多的是给予了我们无限的思考空间。

首届百灵爱透杯世界围棋公开赛冠军周睿羊说到，「定式什么的还是不要随便学了，看到工具一些高级下法之后，感觉到又可以起飞了。」

第 3 届钻石杯龙星战冠军，围棋国手李喆也对这一教学工具发表中肯评价：很多人会担心今后布局的标准化，其实不必担心。教学工具并不是告诉大家「只能这么下」，而是告诉大家「有些下法不太好」以及「可以这么下」。有些图中没有的下法只是因为模拟的随机性而未被收录，它们之中包含很多高胜率的选点，仍可以大胆尝试。

此外，今年五月份被 AlphaGo Master 打败的柯洁第一时间转发微博表示「重新学围棋。」（还用了一个贱贱的 doge 表情）

而这个工具到底好不好用，大家可以去自行体验。

官网英文地址如下：https://alphagoteach.deepmind.com/

中文地址如下：https://alphagoteach.deepmind.com/zh-hans

附 David Silver 介绍 AlphaGo Master 的研发关键：

AlphaGo Master 为何如此厉害呢？

我们让 AlphaGo 跟自己对弈。这是基于强化学习的，我们已经不再拿人类的棋局给它学习了。AlphaGo 自己训练自己，自己从自己身上学习。通过强化学习的形式，它学到如何提高。

在棋局的每一回合，AlphaGo 运行火力全开（full power）的搜索以生成对落子的建议，即计划。当它选择这一步落子、实施、并到一个新回合时，会再一次运行搜索，仍然是基于策略网络和价值网络、火力全开的搜索，来生成下一步落子的计划，如此循环，直到一局棋结束。它会无数次重复这一过程，来产生海量训练数据。随后，我们用这些数据来训练新的神经网络。

首先，当 AlphaGo 和它自己下棋时，用这些训练数据来训练一个新策略网络。事实上，在 AlphaGo 运行搜索、选择一个落子的方案之前，这些是我们能获取的最高质量的数据。

下一步，让策略网络只用它自己、不用任何搜索，来看它是否能产生同样的落子的方案。这里的思路是：让策略网络只靠它自己，试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来，这样的策略网络就比之前版本的 AlphaGo 要厉害得多。

我们还用类似的方式训练价值网络。它用最好的策略数据来训练，而这些数据，是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象，AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此，这些赢家数据是棋局早期回合步法的非常高质量的评估。

最后，我们重复这一过程许多遍，最终得到全新的策略和价值网络。比起旧版本，它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面，得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据，再循环得到新的、更强大的策略、价值网络，再次导致更强大的 AlphaGo，如此不断提升。

更多详细信息，可以参见雷锋网 AI科技评论此前发文：现场｜David Silver原文演讲：揭秘新版AlphaGo算法和训练细节

AI科技评论后续也会带来持续报导。

其他光学零配件批发

求救信号批发

小型搅拌机图片