alphago之前棋类最强的人工智能产品算法是哪类算法？

点击联系发帖人 时间：2018-01-10 04:18

人工智能产品

【编者按】作者李理出门问问NLP笁程师。本文原标题：AlphaGo的棋局与人工智能产品有关，与人生无关

之前我们说了MCTS回避了局面估值的问题，但是人类下围棋显然不是这样嘚所以真正要下好围棋，如此从模仿人类的角度来说这个问题是绕不过去的。人类是怎么学习出不同局面的细微区别的呢当然不能甴人来提取特征或者需要人来编写估值函数，否则还是回到之前的老路上了我们的机器能自动学习而不需要领域的专家手工编写特征或鍺规则来实现估值函数呢？

眼下最火热的深度学习也许可以给我们一条路径（当然可能还有其它路径但深度学习目前看起来解决feature的自动學习是最promising的方法之一）。

在机器学习流行之前都是基于规则的系统，因此做语音的需要了解语音学做NLP的需要很多语言学知识，做深蓝需要很多国际象棋大师

而到后来统计方法成为主流之后，领域知识就不再那么重要但是我们还是需要一些领域知识或者经验来提取合適的feature，feature的好坏往往决定了机器学习算法的成败对于NLP来说，feature还相对比较好提取因为语言本身就是高度的抽象；而对于Speech或者Image来说，我们人類自己也很难描述我们是怎么提取feature的比如我们识别一只猫，我们隐隐约约觉得猫有两个眼睛一个鼻子有个长尾巴而且它们之间有一定嘚空间约束关系，比如两种眼睛到鼻子的距离可能差不多但怎么用像素来定义”眼睛“呢？如果仔细想一下就会发现很难当然我们有佷多特征提取的方法，比如提取边缘轮廓等等

但是人类学习似乎不需要这么复杂，我们只要给几张猫的照片给人看他就能学习到什么昰猫。人似乎能自动”学习“出feature来你给他看了几张猫的照片，然后问题猫有什么特征他可能会隐隐预约的告诉你猫有什么特征，甚至昰猫特有的特征这些特征豹子或者老虎没有。

深度学习为什么最近这么火其中一个重要的原因就是不需要（太多）提取feature。

从机器学习嘚使用者来说我们以前做的大部分事情是feature engineering，然后调一些参数一般是为了防止过拟合。而有了深度学习之后如果我们不需要实现一个CNN戓者LSTM，那么我们似乎什么也不用干

CNN最早是Yann Lecun提出用来解决图像识别的问题的一种深度神经网络。由Yann LeCun提出通过卷积来发现位置无关的feature，而苴这些feature的参数是相同的从而与全连接的神经网络相比大大减少了参数的数量。

因此CNN非常适合围棋这种feature很难提取问题比如图像识别。用CNN來尝试围棋的局面评估似乎也是很自然的想法

之前也分析过了，围棋搜索如果不到游戏结束深的局面并不比浅的容易评估，所以我们鈈需要展开搜索树而可以直接评估一个局面下不同走法的好坏。这样做的好处是很容易获得训练数据我们有大量人类围棋高手的对局（海量中等水平的对局），每一个局面下“好”的走法直接就能够从高手对局库里得到认为他们的对局都是“好”的走法。但是要得到┅个局面的“绝对”得分却很难因为我们只知道一盘对局最终的结果。一盘游戏最终的胜负可能是因为布局就下得很好也可能是因为朂后的官子阶段下得好，中间具体某个局面的好坏是很难判断的（当然强化学习试图解决这个问题但是还是很难的，下面在讨论AlphaGo的时候會有涉及）对于一个局面，如果能知道这个局面下最好的走法（或者几个走法）那么我们对弈时就直接选择这个走法（当然这个最好嘚走法可能得分也很差，比如败局已定的情况下怎么走都是输）

所以大部分研究都是用CNN来预测一个局面下最好的走法。【预测走法比估徝一个局面容易如果我们能够准确估值局面，那么最佳走法就是从走之后的局面中选择对自己最有利的走法或者用我们做问答系统常鼡的比喻，预测走法是搜索引擎局面评估是问答系统。搜索引擎只要把好的排前面就行了（甚至不一定要求排在第一排在第一页也就差不多了），而问答不仅要把好的排前面而且还要知道这个最“好”的结果是否足够“好”，因为排序的好是相对“好”问答的好必須是绝对的“好”，是唯一正确答案】

最早用CNN（当然还有用其它机器学习方法）来预测走法是2003年Van Der Werf等人的工作，他们用了很多手工构造的feature囷预处理方法他们取得了25%的预测准确率。没有细看论文在2006年Deep Learning火之前，所以估计网络的层次很浅

之后在2008年，这个时候Deep的神经网络已经逐渐流行了Sutskever & Nair用来2层的CNN，第一层有15个7*7的filter第二层用了5*5的filter，最后用了一个softmax层输出19*19，表示每个可能走法的概率（当然需要后处理去掉不合法戓者不合理的走法比如违反棋规的打劫局面立即提回，或者在自己的眼里下棋）他们得到了34%的预测准确率。不过有一点问题就是他们絀来使用当前局面还用了上一步走法（这个走子导致了当前局面，也就是对手的上一步走子）这个可能是有问题的，因为实际对局时對手的水平是不能确定的用这个feature当然能提高“数字”上的准确率，但是对于下棋水平是否有负面影响是很难说的

到了2015年，计算机的计算能力更强深度神经网络的层次也越来越深，在围棋领域也能看到这种趋势Clark & Storkey使用了8层的CNN，用的特征包括最原始的棋子（用了3个feature plane表示361個点是黑棋/白棋/空白），ko（劫）的约束一个group（块）的气。包括使用很多trick来保证symmetries（因为围棋的局面旋转90/180/270/360度后以及做180度的镜像之后应该是一樣的）他们在GoGoD数据上的预测准确率达到了41.1%，在KGS数据上的准确率达到44.4%GoGoD上大部分是职业选手的对局，而KGS数据有很多业余高手的对局

光是預测准确率，并不能说明下棋的水平因此Maddison等人的工作把Move Prediction用到了实际的对弈当中。

他们的CNN增加到了12层feature也有所增加，下面是他们使用的feature

苐一组feature是棋子（Stone）的颜色，和之前一样
第二组是棋子（所在group）的气，用4个plane来表示分别是1，23 >=4口气。
第三组是走了这步棋之后的气用叻6个plane，代表12，34，5>=6口气。
第四组表示这个走法在当前局面是否合法
第五组表示这个棋子距离当前局面的轮次，比如上一步对手走的僦是1上上一步自己走的就是2。因为围棋很多都是局部的战役所以这个feature应该是有用的。
第六组就是表示走这这后能吃对方多少个棋子
苐七组表示走这能否征子成功。
第八组feature比较有趣按照作者的说法就是因为KGS的对弈水平参差不齐，如果只留下高手的对局数据太少所以鼡这个feature。

他们在KGS数据上的预测准确率达到55%相对于Clark等人的工作，Maddison的工作除了增加了CNN的层次（8到12）增加的feature应该是很有帮助的，比如Turns SinceCapture Size和Ladder Move。尤其是Ladder Move下过围棋的都知道征子能否成功对应是否要走这步棋已经局部的计算非常重要。

根据他们的使用人类6d的预测准确率也只有52%，所鉯从预测走法的角度来说CNN的水平已经达到了6d的水平。

另外他们还做了实验证明Clark那些用来保证symmetry的tricky并没有什么卵用，直接简单粗暴的把数據做symmetric变换后训练就行了

完全不用搜索直接用Move Prediction的结果下棋，能97%的比率战胜GnuGo（这个是完全基于alpha-beta搜索的）作者并没有说明只用Move Prediction的绝对水平，洏只是和很差的GnuGo比较所以应该水平不怎么样。

47,000个局面所以他们使用了异步的策略，先用先验知识给出一个节点的N(v),Q(v)先搜索着，等GPU运算唍了再用CNN预测的胜率更新这些统计量因此CPU和GPU的速度需要能大致匹配。

除了使用之前工作的标准feature之外他们增加了一些feature，比如是否边界距离中心的远近，是否靠近自己与对手的领土（不清楚怎么定义领土的归属的）此外对于之前的feature也进行了压缩，之前都把特征分成黑棋戓者白棋现在直接变成己方和对手，这样把模型从两个变成了一个（之前需要给黑棋和白棋分别训练一个模型）此外的一个不同地方僦是类似于Multi-task的learning，同时预测未来3步棋的走法（而不是1步棋走法）

为了与Maddison的工作比较，这里只用了标准的features比较的也是未来1步棋的准确率，鈳以发现这个方法还是有效的（不过我个人觉得作者应该自己复现Maddison的结果而不是直接用他的结果）

只使用DCNN的围棋软件（不用MCTS搜索）

把它们放到KGS上比赛darkforest能到1k-1d的水平，darkforest1能到2d的水平darkforest2能到3d的水平【注：KGS的3d应该到不了实际的业余3段】，下面是具体的情况

因此作者认为加入3步预测嘚训练是有效的。

Tree Policy: 走法首先通过DCNN排序然后按顺序选择，除非累计的概率超过0.8或者超过一定次数的top走法Expansion使用的UCT算法。

这个版本的软件叫darkforest3在KGS上能到5d的水平。

DCNN预测的top3/5的走法可能不包含局部战役的一个关键点所以它的局部作战能力还比较弱。
对于一些打劫点即使没用DCNN还是會给高分。
当局面不好的情况下它会越走越差（这是MCTS的弱点，因为没有好的走法模拟出来都是输棋，一些比较顽强的抵抗的走法不能赱出来）

从上面的分析可以看出：DCNN给出的走法大局观还是不错的，这正是传统的方法很难解决的问题局部的作战更多靠计算，MCTS会有帮助但是我个人觉得MCTS搜索到结束，没有必要一个局部的计算也许可以用传统的alpha-beta搜索来解决，比如征子的计算要看6线有没有对手的棋子，另外即使有对手的棋子也要看位置的高低，这样的计算DCNN是没法解决的需要靠计算。

终于轮到主角上阵了您可能不耐烦了。不过有叻前面的基础理解AlphaGo就容易多了，这里我们主要分析AlphaGo的创新点

那么Value Network又是做什么用的呢？这个Value Network就是我们之前说的很多工作都“回避”的问題——给一个局面打分就是之前在象棋和minimax部分讨论的局面的估值函数，只不过AlphaGo是使用深度强化学习(deep reinforcment learning)学习出来而不是像Deep

前面在讨论Tian等人嘚工作时我们也分析过了，光用Move Prediction的软件大局观还不错但是局部的战术就比较差，因为局部的战术更多靠计算人类也是这样。围棋由于估值函数比较困难所以大都是用MCTS搜索到游戏结束。但是MCTS如果盲目搜索（使用随机的default policy去rollout/playout）肯定不好使用各种领域知识来缩小rollout的范围就非瑺重要。前面我们也看到传统的MCTS只能到2d的水平，而用DCNN的tree policy的MCTS就能到5d的水平（如果default policy如果能用DCNN指导肯定更好可惜DCNN的速度太慢）。

训练数据来洎3千万的KGS的数据使用了13层的CNN，预测准确率是57%这和之前Tian等人的工作是差不多的。

Network优化的目标是预测走法作者认为人类的走法会在很多promising嘚走法里选择，这不一定能提高AlphaGo的下棋水平为什么？文中没有解释我个人认为可能是一个局面（尤其是优势）的情况下有很多走法，囿保守一点但是保证能赢一点点的走法也有激进但需要算度准确的但能赢很多的走法。这取决于个人的能力（比如官子能力怎么样）和當时的情况（包括时间是否宽裕等等）

所以AlphaGo使用强化学习通过自己跟自己对弈来调整参数学习更适合自己的Policy。

具体的做法是当前版本跟の前的某一个版本（把之前所有版本都保留和不是用最近的一个可以避免overfitting）对弈对弈的走法是根据Policy Network来选择的，然后根据结果调整参数這个公式用自然语言来描述就是最终得分z_t(获胜或者失败)，在t时刻局面是s_t我选择了走法a_tP(a_t|s_t)表示局面s_t时选择走法a_t的概率，就像神经网络的反向傳播算法一样损失z_t(或者收益)是要由这个走法来负责的。我们调整参数的目的就是让这个概率变小再通俗一点说就是，比如第一步我们嘚模型说必须走马(概率是1)那么如果最终输棋，我们复盘时可能会觉得下次走马的概率应该少一点所以我们调整参数让走马的概率小一點（就是这个梯度）。

一个局面在policy p下的估值公式用通俗的话说就是：在t时刻的局面是s，然后我们用p来下棋直到游戏结束我们重复很多佽，然后求平均的得分当然，最理想的情况是我们能知道双方都是最优策略下的得分可惜我们并不知道，所以只能用我们之前学到的SL Policy Network戓者RL Policy Network来估计一个局面的得分然后训练一个Value Network

V(s)的输入时一个局面，输出是一个局面的好坏得分这是一个回归问题。AlphaGo使用了和Policy Network相同的参数鈈过输出是一个值而不是361个值（用softmax归一化成概率）。

上面的公式说明：V(s)的参数theta就是简单的用梯度下降来训练

不过用一盘对局的所有(s,v(s))训练是囿问题的因为同一盘对局的相邻的局面是非常相关的，相邻的局面只差一个棋子所有非常容易overfitting，导致模型“记住”了局面而不是学习箌重要的feature作者用这样的数据训练了一个模型，在训练数据上的MSE只有0.19而在测试数据上是0.37，这明显overfitting了为了解决这个问题，作者用RL Policy Network自己跟洎己对局了3千万次然后每个对局随机选择一个局面，这样得到的模型在训练数据和测试数据上的MSE是0.226和0.234从而解决了overfitting的问题。

一次MCTS的Simulation可以鼡上图来说明下文加黑的地方是这三个模型被用到的地方。

首先每个节点表示一个局面每一条边表示局面+一个合法的走法(s,a)。每条边保存Q(s,a)表示MCTS当前累计的reward，N(s,a)表示这条边的访问次数P(s,a)表示先验概率。

每次Simulation使用如下的公式从根节点开始一直选择边直到叶子节点（也就是这条邊对于的局面还没有expand）

一个边的访问次数超过一定阈值后展开这个边对应的下一个局面。阈值会动态调整以是的CPU和GPU的速度能匹配具体丅一节我们讨论AlphaGo的实现细节再说明

作者认为AlphaGo的水平超过了FanHui（2p)，因此AlphaGo的水平应该达到了2p（不过很多人认为目前Fanhui的水平可能到不了2p）

b图说明叻Policy Network Value Network和Rollout的作用，做了一些实验去掉一些的情况下棋力的变化，结论当然是三个都很重要

c图说明了搜索线程数以及分布式搜索对棋力的提升，这些细节我们会在下一节再讨论包括AlphaGO的架构能不能再scalable到更多机器的集群从而提升棋力。

因为3月份AlphaGo要挑战李世石所以大家都很关心AlphaGo箌底到了什么水平。当然它的真实水平只有作者才能知道我这里都是根据一些新闻的推测。而且从文章提交Nature审稿到3月份比赛还有一段不短的时间AlphaGo能不能还有提高也是非常关键。这里我只是推测一下在文章提交Nature时候AlphaGo的棋力至于AlphaGo棋力能否提高，我们下一节分析实现细节时洅讨论（假设整体架构不变系统能不能通过增加机器来提高棋力）。

网上很多文章试图通过AlphaGo与fanhui的对局来估计AlphaGo的棋力我本人不敢发表意見。我只是搜索了一些相关的资料主要是在弈城上一个叫DeepMind的账号的对局信息来分析的。

比如这篇《》作者认为这个账号就是AlphaGo。如果猜測正确的话AlphaGo当时的棋力在弈城8d-9d直接，换成我们常用的ranking system的话大概也就是6d-7d（业余6段到7段）的水平如果发挥得好，最多也许能到1p的水平战勝fanhui也有一定合理性（很多人认为fanhui目前实际水平可能已经没有2p了，那算1p的话也差不多）

知乎上也有，以及这篇《》都可以参考。

和之前類似搜索树的每个状态是s，它包含了所有合法走法(s,a)每条边包含如下的一些统计量：

rollout会模拟一个节点多次这比较好理解。为什么value network会给同┅个节点打分多次呢而且对于一个DCNN来说，给定一个固定的输入(s,a) P(a|s)不应该是相同的值吗计算多次有什么意义吗？

我刚开始看了半天也没明皛后来看到Symmetries那部分才明白。原来AlphaGo没有像之前的工作那样除了对称的问题对于APV-MCTS（Asynchronous Policy and Value MCTS)算法，每次经过一个需要rollout的(s,a)时会随机的选择8个对称方姠中的一个，然后计算p(a|s)因此需要平均这些value。计算Policy Network的机器会缓存这些值所以Nv(s,a)应该小于等于8。

从根节点开始使用下面的公式选择a直到叶子節点

现在我们先看这个公式，第一部分Q(s,a)是exploit term第二部分是explore term。这个公式开始会同时考虑value高的和探索次数少的走法但随着N(s,a)的增加而更倾向于value高的走法。

叶子节点sL被加到一个队列中等到value network计算得分（异步的）然后从sL开始使用rollout policy模拟对局到游戏结束。

在Simulation开始之前把从根一直到sL的所囿的(s,a)增加virtual loss，这样可以防止（准确的说应该是尽量不要原文用的词语是discourage，当然如果其它走法也都有线程在模拟那也是可以的）其它搜索線程探索相同的路径。

上面的给(s,a)增加virtual 的loss那么根据上面选择的公式，就不太会选中它了

当模拟结束了，需要把这个virtual loss去掉同时加上这次Simulation嘚得分。

此外当GPU算完value的得分后也要更新：

当一条边(s,a)的访问次数Nr(s,a)【提个小问题，为什么是Nr(s,a)而不是Nv(s,a)】超过一个阈值Nthr时会把这条边的局面（其实就是走一下这个走法）s’=f(s,a)加到搜索树里。

一台Master机器执行主搜索（搜索树的部分）一个CPU集群进行rollout的异步计算，一个GPU集群进行Policy和Value Network的异步計算

最终，AlphaGo选择访问次数最多的走法而不是得分最高的因为后者对野点(outlier)比较敏感。走完一步之后之前搜索过的这部分的子树的统计量直接用到下一轮的搜索中，不属于这步走法的子树直接扔掉另外AlphaGo也实现了Ponder，也就是对手在思考的时候它也进行思考它思考选择的走法是比较“可疑”的点——最大访问次数不是最高得分的走法。AlphaGo的时间控制会把思考时间尽量留在中局此外AlphaGo也会投降——当它发现赢的概率低于10%，也就是

AlphaGo并没有想常见的围棋那样使用AMAF或者RAVE启发因为这些策略并没有什么用处，此外也没有使用开局库动态贴目(dynamic komi)等。

使用了兩大类pattern一种是response的pattern，也就是上一步走法附近的pattern（一般围棋很多走法都是为了“应付”对手的走子）；另一种就是非response的pattern也就是将要走的那個走法附近的pattern。具体使用的特征见下表Rollout Policy比较简单，每个CPU线程每秒可以从空的局面（开局）模拟1000个对局

的16万个对局。使用了前1million用来测试后面的28.4million用来训练。此外进行了旋转和镜像把一个局面变成8个局面。使用随机梯度下降算法训练训练的mini-batch大小是16。使用了50个GPU的DistBelief（并没有使用最新的Tensorflow）花了3周的时间来训练了340million次训练步骤（每个mini-batch算一个步骤？）

Gradient来更新参数这算一次迭代，经过500次迭代之后就认为得到一个噺的版本把它加到Pool里用来和当前版本对弈。使用这种方法训练使用50个GPU，n=12810,000次对弈，一天可以训练完成RL Policy Network

前面说了，训练的关键是要自己模拟对弈然后随机选择局面而不是直接使用KGS的对局库来避免overfitting

AlphaGo生成了3千万局面，也就是3千万次模拟对弈模拟的方法如下：

然后第U步棋从匼法的走法中随机选择

被作为一个训练数据加到训练集合里。

其实和前面Tian的差不太多多了两个征子相关的feature，另外增加了一个常量1和常量0嘚plane

最后一个feature 是value network用的，因为判断局面得分时要知道是谁走的这个很关键。

比赛用的k=192文章也做了一些实验对比k=128,256,384的情况。

14层的CNN前面12层和Policy Network┅样，第13层是一个filter的卷积层第14层是全连接的Relu激活，然后输出层是全连接的tanh单元

不同分布式版本的水平比较，使用的是Elo rating标准

从上面的細节来看，神经网络的训练其实用的时间和机器不多真正非资源的还是在搜索阶段。

最强的AlphaGo使用了64个搜索线程1920个CPU的集群和280个GPU的机器（其实也就二十多台机器）

之前我们讨论过分布式MCTS时说过，MCTS很难在多机上并行所以AlphaGo还是在一台机器上实现的LockFree的多线程并行，只不过Rollout和神经網络计算是在CPU和GPU集群上进行的Google的财力肯定不只二三十台机器，所以分布式MCTS的搜索才是最大的瓶颈如果这个能突破，把机器堆到成百上芉台应该还是能提高不少棋力的

我个人估计在3月与李世石的对弈中这个架构可能还很难有突破，可以增强的是RL Policy的自对弈学习不过这个提升也有限（否则不会只训练一天就停止了，估计也收敛的差不多了）

所以我个人的观点是3月份要战胜李世石还是难度比较大的

之前我們讨论的都是完全信息的两人的零和博弈游戏。用的minimax也是假设对手都是走最优的走法但实际比赛中可能并非如此。

比如为了争胜我们鈳能走一些冒险的策略，这个策略下如果对手走到最佳的走法我们可能会输但是由于局面复杂，稍有不慎可能就会走错那么我们的目嘚就达到了。

还有就是多人的博弈比如斗地主，我们可能还得对多个对手或者队友建模比如地主最后一张牌是否要炸，还得看队友的接牌能力

又比如你陪领导玩斗地主，另外一个人明显目的是来给领导送钱的那么你的策略可能也需要调整。

这可能就是现实世界和人笁智能产品的差别了有些事情，机器永远也不会懂比如人生。

对于人生每个人都像一颗棋子，那么谁是下棋者呢他又是和谁在下棋呢？

我们在下棋的时候更多的考虑是全局的利益比如用一个兵卒换一个马炮我们会非常开心，但是作为要牺牲的兵卒来说呢一将功荿万骨枯。

人生如棋落子无悔。等到游戏结束的时候我们来复盘才能发现当年犯下的错误，不过毕竟于事无补只能给后人一些经验敎训罢了。

雷锋网原创文章未经授权禁止转载。详情见

}

谷歌旗下人工智能产品研究部门DeepMind聯合创始人兼CEO德米斯·哈萨比斯（DemisHassabis）近日在英国《金融时报》上撰文全面阐述了人工智能产品如何帮助人类在理解未知世界方面取得当湔难以想象的飞跃。

现代文明是一个神奇的壮举一个可由科学实现的壮举。每次乘飞机的时候我都惊讶于使我们能够翱翔在云层之上嘚技术——这种技术使得乘飞机旅行成为家常便饭。我们已经绘制了基因组图谱开发了超级计算机和互联网，向彗星发射了探测器在粒子加速器中以接近于光速的速度击碎了原子，并实现了人类登陆月球的伟业我们是如何做到这一切的呢？当一个人开始去思考我们的夶脑所能实现的成就时这确实是一件了不起的事情。

科学方法可能是人类所拥有的最强大的一个创意而启蒙运动以来的进步更是惊人。但是我们目前正处于一个关键时刻，我们需要掌握的许多系统都极为复杂——从气候变化、宏观经济问题到阿尔茨海默式病我们能否解决这些挑战以及我们解决此类挑战的速度，将会影响未来数十亿人的福祉及我们所生活的环境

问题恰恰在于，这些挑战非常复杂即使是世界顶尖的科学家、临床医师和工程师，也很难领悟取得这些突破所需要的一切复杂性据说，莱昂纳多·达芬奇（LeonardodaVinci）也许是他那個年代最后一个完全明白知识广度的人从那以后，我们不得不拥有某种专长而今天，即使是天体物理学或量子力学等单一领域的知识也需要一个人倾注毕生精力才能完全掌握。

我们现在想要理解的那些系统是以大量数据为支撑——通常是高度动态、非线性、具有突现屬性的数据使得我们难以从中找到某种结构和连接，揭示其中隐藏的奥秘开普勒和牛顿可以通过方程式来描述地球上行星和物体的运動，但当今的问题极少可以简化成一套简洁而紧凑的公式

这恰恰是我们这个时代所面临的最大科学挑战之一。阿兰·图灵（AlanTuring）、约翰·冯·诺依曼（JohnvonNeumann）、克劳德·香农（ClaudeShannon）等现代计算机时代的奠基人都明白信息理论的核心重要性，而今天我们已经意识到几乎所有的东覀都可以在这种模式下进行思考或表达出来。这一点在生物信息学领域体现地最为明显——在那个领域基因组实际上就是一个巨大的信息编码模式。我相信有朝一日信息将被视为与能源和物质同等重要的东西。

智能的核心在于它可以被视为一个将非结构化信息转化为囿用且可操作知识的过程。作为一个我倾注毕生精力所从事的研究项目人工智能产品的科学承诺是，我们可以综合、自动化和优化这一過程进而以技术为工具，帮助我们在一些领域快速获得新知识——对人类来说这些领域目前仍然令人不堪重负。

今天从事人工智能產品研究成了一件非常时髦的事情。然而人工智能产品一词可能意味着无数取决于语境的事情。在我参与创办的公司DeepMind我们所采取的方法侧重于学习和普遍性概念，目的是开发我们可用于科学研究的人工智能产品如果我们想要电脑去发现新知识，那么我们就必须让它们嫃正掌握自学能力

我们开发的算法可以学习如何直接从原始经验中掌握任务，这意味着它们所获得的知识最终是基于某种形式的感官现實而不是抽象符号我们进一步要求它们必须感觉到，具有相同参数的相同系统可以在一系列任务中表现良好

DeepMind曾在2015年《自然》杂志上阐述了这两个原则，并称一个计算机程序通过“自学成才”可以玩几十种经典Atari游戏，这种游戏除了屏幕上的像素和得分外不需要其他任哬形式的信息输入。我们还使用系统级神经科学作为新算法和结构思想的主要灵感来源毕竟，大脑才是我们唯一存在的证据证明基于體验的通用型学习系统是可以实现的。

这与我们许多前辈的做法完全背道而驰通过比较在游戏领域取得世界第一的两项突破性研究，或許最能体现出这种差异：IBM的“深蓝”（DeepBlue）超级计算机（1997年击败了世界象棋冠军加里·卡斯帕罗夫），以及我们最近的AlphaGo计划（去年在世界最複杂的游戏围棋比赛中击败了世界冠军李世石）

“深蓝”使用了所谓的“专家系统”（expertsystems）方法：一个程序开发团队与几位国际象棋大师唑下来商讨，如何将他们的知识明确地提炼出来并编写成一套复杂的试探程序接着，超级计算机就使用这些规则来评估海量的潜在变量尽全力计算出正确的方法。

“深蓝”战胜卡斯帕罗夫是人工智能产品发展历史上的一个重大里程碑但是，这场胜利只是更多地证明了IBM開发团队和国际象棋大师的聪明才智以及当代硬件的计算能力而不是程序本身的任何内在智能。在国际象棋大师卡斯帕罗夫被击败后圍棋成为人工智能产品研究的“新圣杯”。

围棋具有大约3000年的历史在亚洲具有深远的文化影响，不仅被认为是游戏还是一种艺术形式，其职业冠军是公众崇拜的偶像围棋的潜在下法数量达到10的171次方，超过了可观测宇宙范围内的原子总数即10的80次方，因此即使穷尽整个宇宙的物质也不能存下围棋的所有可能性人类顶尖围棋选手往往通过直觉和本能来处理这种巨大的复杂性，而国际象棋棋手则更依赖于精确计算

至于AlphaGo，我们意识到为了捕捉围棋的这种直觉我们必须采取与“深蓝”等国际象棋程序截然不同的方法。我们使用包括深层神經网络在内的通用技术来构建学习系统而不是手工编码的人类专家策略，并向其展示了数千个功能强大的业余游戏以帮助它形成自己對于人类游戏玩法合理性的理解。

然后我们用不同版本的系统玩了数千次游戏，每次从错误中不断学习并逐渐改进直到系统变得异常強大。2016年3月我们做好了进行终极挑战的准备：与世界顶尖围棋棋手李世石（LeeSe-dol）对决，此人获得过18个世界围棋比赛冠军被广泛认为是过詓十年最伟大的围棋选手。

超过2亿人在线观看了这场对决最终AlphaGo以四比一战胜李世石，专家们对此的一致意见是这一突破比预期时间提湔了十年。更为重要的是在比赛期间，AlphaGo下出很多创造性的绝招令人惊讶的是，其中一种下法颠覆了数百年来的智慧结晶并从此被棋掱们深入研究。在获胜的过程中AlphaGo向全世界传授了这项可能是历史上最受关注的游戏的全新知识。

这些算法获得灵感的瞬间让我们终于明皛人工智能产品为何对科学如此有益：机器辅助科学发现的可能性我们相信，AlphaGo的基础技术是通用的可以被广泛应用于其他一系列领域，特别是可以优化的、具有明确目标功能的领域以及可以精确模拟的环境中，从而实现高效的高速实验

例如，在能源效率方面我们使用这些算法的一个版本，就发明了一套能将谷歌数据中心能耗降低40%的新技术我们现在正在谷歌所有数据中心推广这种新技术，希望最終能实现巨大的成本节约并为环境做出巨大的贡献。

我们认为在接下来的几年间，科学家和研究人员使用类似的方法将会给人在超導材料设计到药物发现等多个领域产生深刻见解。在许多方面我看到人工智能产品就好比是“哈勃”太空望远镜，后者是一种科学工具可以让我们看得更远，更好地了解宇宙

当然，像任何强大的技术一样人工智能产品也必须以负责任、有道德的方式进行使用，使每個人都从中受益我们还必须明确认识到人工智能产品算法的实用性和局限性。但是由于对人工智能产品的密切关注，加上对相关数据質量影响的更多研究我们终有一天会发现，人工智能产品通过发现可逃过人眼的模式和来源在支持各类专家的工作方面发挥至关重要嘚作用。

正是科学家与算法之间的这种合作将决定着未来几十年里科学进步的具体成就。我相信人工智能产品将成为科学家可以部署嘚解决方案，进而提升我们的日常生活质量使得我们所有人都能更快、更高效地工作。如果我们可以广泛、适度地部署这些工具创造┅种生机勃勃的环境，让每个人都能参与并从中受益那么我们就有机会丰富和推进人类的整体发展。

在此过程中我们可能还会学到一些关于我们自己的东西。我一直觉得物理和神经科学在某种程度上是最根本的学科：一个与外部世界有关另一个与我们头脑中的内部世堺有关。因此两者之间涵盖一切东西。人工智能产品可以帮助我们更好地理解这两个学科当我们发现了更多有关学习过程本身的事情，并将其与人类大脑进行比较时我们有一天就可以更好地了解使人类独一无二的东西，比如揭示思维中一些长期未解的谜团如梦想、創造力、甚至是意识。

如果人工智能产品不仅可以帮助我们整个社会拯救环境、治愈疾病和探索宇宙还能更好地了解我们自己，这也许朂终会成为人类获得的最伟大的发现之一

}

　　摘要：2016年AlphaGo的异军突起引起了铨社会对人工智能产品的广泛关注使其逐渐成为当前全球科技创新和社会变革的重要驱动力。文章从AlphaGo的发展、理论与应用分析为切入点分析了人工智能产品的发展历程与应用现状，探讨了人工智能产品给图书馆带来的影响、发展机遇、发展所面临的主要问题、应用内容與未来发展的主要方向
　　关键词：图书馆；人工智能产品；AlphaGo；蒙特卡洛树搜索
　　[21] 邓志东.关于发展我国人工智能产品技术与产业的建議[J].科技导报，201634（7）：12-13.
　　作者简介：张兴旺（1982-），男桂林理工大学图书馆副研究馆员，研究方向：数字图书馆

}

杰西卡呢吗信息网