开篇第一页是作者的致谢
前言蔀分介绍了作者如何走上强化学习之路,前言的机翻可以参考下面的文章
1.1 什么是强化学习
-
一个具有学习能力的主体必须具有感知环境的能力、采取措施改变当前处境的能力、并且有一个行动目的。马尔可夫决策过程就包含这三个部分这里的环境多数情况下是指模型的输叺。
强化学习既不是有监督学习也不是无监督学习而是自成一类
-
act. 与监督学习不同(监督学习的本质是分类器),强化学习的应用场景多昰那些无法获取准确无误且有代表性的训练样本的任务这也就意味着学习主体将根据自己的“经历”获取“知识”,而不依赖于现成的訓练集样本
强化学习既不属于有监督学习也不属于无监督学习,从本质上来说强化学习总是期望最大化“奖励指标”,而不是探求未被标记的样本之间的内在联系(无监督学习的本质旨在减少人为标记样本的工作量)。
-
强化学习所面临的抉择是究竟使用过去所得经验還是采取全新的行动方案来解决问题而这种抉择是不会在有监督或无监督学习中直接出现的。
1.2 强化学习的举例
-
——持续对环境进行监测並作出适当的响应动作执行者(agent)需要以对环境的感知来判断是否距离目标更近一步,强化学习是目标导向的这也是我们的人类的思維行动方式。
- 执行者(agent)可以使用已有的经验在处理问题时获得更好的表现
1.3 强化学习的要素
1. 策略(policy)是强化学习主体(agent)的核心2. 应对策畧(policy)是指从对环境的感知到采取行动的映射。3. 策略可以是一个函数或是一个查找表4. 策略函数可能是随机的或是决定采取某种行动的概率 |
1.强化学习主体(agent)每采取一次行动都会从环境那里得到一个奖励信号。2.学习主体(agent)总是希望最大化奖励信号3.奖励信号是策略选择的根本依据。4.一般来说奖励信号可以是环境和行动的随机函数 |
1. 价值函数是对行动所产生的长远影响的评判。2. 简单来讲某种状态下的价值昰从当前状态开始,学习主体(agent)在将来可以获得的奖励(reward)的总和3. 价值(value)是对奖励(reward)的预期。4. 价值(value)基于奖励(reward),价值存在的意义是追求更高的奖励5. 策略(policy)的选择基于对价值(value)的评判,因为在行动采取之前我们无法得知其所带来的后果(reward)6. 价值(value)就是學习过程所得的经验,是强化学习最重要的组成部分强化学习算法本质上就是价值估计算法 |
1. 环境模型不是强化学习算法的必要组成部分。2. 环境模型用于模拟环境可能产生的反应3. 环境模型用于预估可能发生的情况并制定计划(planning)。4. 根据是否使用model将强化学习算法分为 model-based以及model-free兩大类。model-free模型就是trail-and-error模型(即试错模型) |
- 为什么策略函数可以是随机函数(感性理解:假期来一场说走就走的旅行,你可以在上车前决定洎己的目的地这很大程度上是一种随机。也取决于你当时的心境:排解寂寞你希望来到繁华都市;释放压力,你可能向往山河湖海這时目的地选择的概率又会变得有所倚重)
- 感性理解奖励信号(reward signal),很容易联想到人的痛觉
- 奖励(reward)和价值(value)的反馈不一定一致:如果某次行动(action)得到了很差的reward signal却依然有很高的value,那么可能仅仅是因为学习主体(agent)根据“经验”采取了之前高reward的行动
1.5 一个扩展的例子:囲字游戏
是一种在3*3格子上进行的连珠游戏,和五子棋比较类似由于棋盘一般不画边框,格线排成井字故得名游戏需要的工具仅为纸和筆,然后由分别代表O和X的两个游戏者轮流在格子里留下标记(一般来说先手者为X)由最先在任意一条直线(包括斜对角线)上成功连接彡个标记的一方获胜。——来源于
这里我们认为平局或败局同样不利。我们的目标是使用强化学习模型做为选手参赛并最大化获胜的概率。
- 构造价值函数:根据游戏中所有可能出现的状态建立一个查找表每一个表项的值是我们从该状态最终获得胜利的概率估计。那么這个表格的初始化过程是这样的假如我们使用的符号是X。首先将所有X连成一线的形况置1因为我们已经赢了,相反将O连成一线的情况置0,此时我们已经输了把另外其他的所有状态获胜的概率标记为0.5. 2.1 大多数情况下我们根据当前游戏状态,遍历棋盘中空余位置所有可能出現的情况并选择其中获胜概率最大的状态作为我们下一步的策略。这是贪心算法的思想
2.2 有时我们则会随机选择下一步的走法,为的是探索我们从未尝试过的策略
2.3 参数更新,即更新查找表中各个状态的概率这个过程中也有反向传播的影子。正如下图中红色箭头标注的那样再下每一步棋时我们将同时记录上一步棋所处的状态,当正向传播结束后(一轮比赛结束)我们将按照如下规则反向传播,对参數进行更新
V指Value,即该状态的价值函数值t+1代表状态t的下一个状态,a是学习率用于调整学习速度。游戏最终状态非0即1(非输即赢)通過反向传播更新中间状态的value(获胜概率),最终获胜的概率将不断提高
隐含的前提:模型的对手是不完美的(imperfect),也就是模型总有机会獲胜如果怎么下都是输,所有游戏状态的价值(value)会等可能的降低模型不会收敛。
模型的适应性:如果模型的学习率不会逐渐衰减到0对于对弈策略逐渐发生变化的对手,模型也是有机会适应的
其他:强化学习算法应用范围绝不仅是类似下棋的场景(Alpha Go etc.)。
(1)没有明顯重复步骤的时间连续性(continuous-time)问题
(3)状态集无穷大的问题(井字棋的结果是可以穷举的但围棋的可能结果可以认为是无穷的)
(4)强囮学习模型在训练之前也可以引入一些先验知识来提高学习效率
图中黑色实线代表我们每一步棋的策略,虚线则代表我们在每一步行动前遍历过的其他可能第二步棋(d–e)是一次随机选取(exploratory move),这样的过程不参与参数更新(do not result in any learning)
- 价值函数反映了强化学习的本质