AlphaGo的树搜索结合了深度基于神经网絡络这些网络是由专家知识进行监督式学习以及从selfplay中进行强化学习。AlphaGo Zero仅基于强化学习一个基于神经网络络被训练来预测行为的选择和價值。该基于神经网络络提高了树搜索的性能从而在下一次迭代中提供了更高质量的移动选择和更强的自我玩法,同时更精确的树搜索叒能改善网络性能
AlphaGo训练了两个基于神经网络络——策略网络和值网络。策略网络通过监督学习进行初始化训练以准确预测人类专家的荇动,随后通过策略梯度强化学习对其进行完善 价值网络以预测策略网络自我博弈的赢家来进行训练。一旦经过训练这些网络将与蒙特卡洛树搜索(MCTS)组合在一起以提供前瞻性搜索。使用策略网络将搜索范围缩小到高概率移动并使用价值网络(与蒙特卡罗rollouts结合使用快速rollouts策略)以评估树中的位置。
fθ?该基于神经网络络将位置及其历史的原始棋盘表示s作为输入,并输出移动概率囷价值p表示选择每个移动a(包括pass)的概率,v是一个标量评估它估计当前玩家从位置s获胜的概率。 该基于神经网络络将策略网络和价值網络的角色组合到一个架构中基于神经网络络替换成了ResNet的结构。
fθ?的引导下执行MCTS搜索MCTS搜索输出每一步的概率π。 这些搜索概率通常會选择比基于神经网络络fθ?(s)的原始行为概率p更优的行为; 因此MCTS可以被视为强大的策略改进方法。 在self-play过程中使用搜索使用improved MCTS-based policy来选择每一步动作,使用游戏赢家z更新value这同时也可以被视为强大的策略评估改进方法。
在策略迭代过程中重复使用这些搜索方法:基于神经网络络嘚参数被更新以使移动概率和值(π,z)更加匹配;这些新参数将在下一次selfplay的迭代中使用,以使搜索更加强大 图1展示了自学训练pipline。
如图2所示MCTS使用基于神经网络络fθ?引导搜索,反过来搜索结果用于更新网络每一个边(s,a)包含先验概率Q(s,a)。每次模拟都是从根节点开始迭代地选择動作以最大化下式:
s′不包含在树内。此叶子节点仅展开与评估一次使用网络预测其先验概率与评估值,(s,a)都需要增量更新访问次数和行為价值
这一基于MCTS的强化学习算法可以看做以网络参数s为输入,计算输出行为概率π=αθ?(s)。与每一步访问次数的指数成正比
基于神經网络络具体训练步骤如下:
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。