从老虎机讲起,从头开始深度强化学习
本文笔者将对深度RL领域的各个核心部分做出一个任何人都可以读懂的概述,对深度RL主要使用的许多算法的一个全面总结。
最近,我在北京的O’Reilly AI大会上做了一个演讲,是关于我们在NLP世界里学到的一些有趣的经验。当时,我很幸运地参加了Unity Technologies举办的关于“从头开始深度强化学习”的课程。我觉得这个由Arthur Juliani主讲的课程,干货极多,下面我把主要内容分享出来。
在与各公司的交流中,我们发现有趣的深度RL应用、工具和成果在增多。同时,深度RL的运作机制和应用,比如下图所示的AlphaGo,通常深奥而晦涩。
一部关于深度DL最著名应用之一的纪录片
在本文中,我将对此领域的各个核心部分做出一个任何人都可以读懂的概述。
很多图片都是来自那个演讲的幻灯片,也有新的。所有的解释和观点都是我自己的。有任何不清楚的,可以通过这里联系我。
深度强化学习的兴起
人们对深度RL领域有着极大的研究兴趣,例如:学习玩Atari游戏,击败Dota 2职业选手,战胜围棋冠军。传统的深度学习侧重于识别(这张图片里有“停车”标志吗?),与之相反,深度RL增加了影响环境的动作的维度(目标是什么?我如何达成?)。
例如:在对话系统中,传统的深度学习关心的是对给出的问题如何学到正确的回答。但是,深度强化学习则着眼于一系列正确的语句,并从中得到一个积极的结果,比如,一个满意的客户。
这使得深度RL对于那些需要计划和应变的行业,如制造业或自动驾驶,格外有吸引力。
然而,行业应用落后于飞速发展的技术研究成果。一个主要原因是深度RL通常需要一个代理进行无数次摸索后,才能学到有用的东西,速成的办法是使用模拟环境。这个教程使用Unity来建立一个训练代理的环境。
这个由Arthur Juliani和Leon Chen主持的研习会,其目标是让每个一学员在4小时内成功训练多个深度DL算法。这简直是天方夜谭!
以下是对深度RL主要使用的许多算法的一个全面总结。
从老虎机到电子游戏:RL综述
深度RL能用来击败人类围棋顶尖高手。但要想知道如果实现的,你必须先从简单问题入手,掌握几个基本概念。
1. 一切始自老虎机
第一个游戏问题:我们知道哪个箱子里最有可能有奖品吗?
假设每一轮你有4个箱子可选,每个箱子都有不同平均回报,你的目标是在给定的轮数后,拿到的回报总金额最高——这是一个经典的游戏,名叫“多臂赌博机”。我们从这个游戏开始研究,这个游戏的难点在于平衡探索和获利,探索让我们知道哪种情形才是好的,获利是探索到的知识去选择最好的老虎机。
这里,我们要使用一个值函数来映射我们的动作与预期的奖品,这个函数叫Q函数。
首先,我们把所有Q值初始化为相等值。然后,我们每做一个动作(选取一个箱子),根据这个动作导致的回报的好坏,更新这个动作对应的Q值。这样,我们就能得到一个好的值函数。我们用一个能学习到4个候选箱子的概率分布(使用softmax)的神经网络(从一个非常浅的开始)来逼近Q函数。
值函数能让我们评估我们动作的好坏,而策略决定了我们最终采取哪个动作。
凭直觉,我们会使用能选择出Q值最高的动作的策略。在实际应用中,这种做法表现很差,因为在我们通过试错取得足够经验之前,起初所预估的Q值都是很不靠谱的。这促使我们在策略中加进一种机制,以增加探索的成分。
方法之一是使用ϵ贪心算法,它是由随机选取一个具有ϵ概率的动作构成。开始时,总是随机选择动作,让ϵ接近1,然后逐步降低ϵ,并进一步了解哪些箱子是好的。最终,我们确定出最好的箱子。
在实践中,相比要么选择一个我们认为最好的动作,要么随机选一个动作,我们应该需要一个更巧妙的办法。一个广泛采用的方法叫Boltzmann Exploration,它是通过加入随机因子来调整基于我们当前对于箱子好坏的预估的概率。
2. 增加不同的状态
这里,不同的背景颜色代表不同的平均箱内奖励。
前面的例子仅描述了一种情形——即我们总是从面前的4个箱子中进行选取,而在现实中,是有多种情形的。
下面,我们把这种情况加入到我们的环境中来。
现在,每一轮中,箱子的背景色在3种颜色中交替显示,表示箱子不同的平均值。这意味着,我们所学习的Q函数,不仅取决于动作(我们所选的箱子),还取决于具体状态(什么样的背景色)。这种类型的游戏叫作上下文多臂赌博机。
很奇怪,我们仍然能用前述的方法。只要在神经网络中加多一个稠密层,用来输入当前状态的矢量就行了。
3. 了解动作的后续结果
这里,我们是蓝色方块,尝试学习如何到达绿色方块,而不碰到红色方块。
有一个关键因素使得我们的游戏比大多数都简单,在大部分环境中,比如上面那个迷宫,我们采取的行动对状态世界是有影响的。我们向上移动一格,可能得到奖励,也可能得不到,但是下一轮,我们将处于不同的状态。这就是为什么我们要引入“计划”。
首先,我们把Q函数定义为我们当前状态的即时奖励,加上我们做完所有动作后所期望的折扣奖励。如果我们的Q函数对状态的预测准确的话,这种方法是管用的。那么,我们怎样做出准确的预测呢?
我们用一个叫时序差分(TD)学习的方法来生成一个好的Q函数。其要点是只看未来的有限步骤,例如:TD(1)只用后续的两个状态来评估奖励。
很奇怪,我们可以用TD(0),只看当前状态,预测下一轮的奖励,效果很不错。网络结构是一样的,但是我们需要进到下一步才能发现错误。接着,我们用这个错误来反向传播梯度,就像传统的深度学习那样,然后更新预测值。
3+. Monte Carlo介绍
Monte Carlo预测是另一个用来预测我们的动作是否成功的方法。它的原理是用当前策略把所有步骤走完(在上图中,成功到达绿色方块或者因碰到红色方块而以失败告终),并用结果来更新每一个经过的状态的预测值。这样我们可以在全部步骤完成后一次性传播预测值,而不用每步都做。代价是在预测值中引入了噪声,因为奖励的路径太长。
4. 很少离散的世界
前面讲的方法都是先把有限数量的状态和行动进行映射,然后用神经网络来逼近预测值。
在那个迷宫例子中,一共有49个状态(方块)和4个行动(相邻的4个移动方向)。在本图的情形中,我们尝试学习如何让一个球在一个二维托盘中保持平衡,每一时刻我们都要决定托盘是要朝左还是朝右倾斜。这里,状态空间变成连续的了(托盘的角度,球的位置)。好消息是,我们还是可以用神经网络进行函数逼近!
关于策略无关(off-policy)和策略相关(on-policy)学习的提醒:我们先前用的是策略无关方法,即我们可以用任何方式来生成数据(比方说ϵ贪心算法),并从中学习。而策略相关方法,只能从由策略产生的行动中去学习(记住,策略是我们用来决定如何行动的方法)。这会限制学习过程,因为策略中必须嵌入探索方法,但是也使得结果与推理相关联,令学习效率更高。
我们要采用的方法叫“策略梯度”,是策略相关的。先前,我们就每一个状态的每一个动作学习到了值函数Q,并在此基础上生成了策略。
在香草梯度策略中,我们仍旧使用Monte Carlo预测,但是我们使用损失函数增加选取到能获奖的行动的概率,然后直接从损失函数中学习策略。因为我们是依赖策略来学习的,所以不能用类似ϵ贪心算法(其包含随机选择)那样的方法来使代理探索整个环境。我们用来强化探索的方法叫熵正则化,它能增加概率预测的宽度,从而在探索空间时采用更冒险的做法。
4+. 利用深度学习进行表达
在实践中,许多最新型的RL模型要求学习一个策略和若干预测值。用深度学习的方法来实现的话,是让两者成为从同一个主干神经网络产生的两组分离的结果,这样做更易于让神经网络学习到好的表达方式。
可用的方法之一是Advantage Actor Critic(A2C)。 我们直接用策略梯度(上面定义的)来学习策略,同时用一种叫Advantage的东西学习值函数。我们不是基于奖励来更新值函数的,而是基于“优势(advantage)”。所谓“优势”,是指跟用旧的值函数的预测结果相比,一个动作变得更好或更坏的度量。这使学习的效果的稳定性优于简单Q学习和“香草策略梯度”。
5. 从屏幕中直接学习
模型的输入就是上面图片的像素!
对于这些方法来说,使用深度学习还有一个优势,那就是深度神经网络在感知类任务中表现优秀。一个人在玩游戏时,他接收到的信息并不是一连串状态,而是一幅图像(通常是屏幕、棋盘或者周围环境)。
基于图像的学习综合了卷积神经网络(CNN)和RL。在本场景中,我们输入原始图像而不是特征,并在架构中加入一个2层CNN,其它都不用改。我们甚至可以检查一下激活函数,看看网络识别到了什么,它是如何确定值和策略的。
在下面的例子中,我们可以看到网络用当前的得分和远处的障碍建立当前的状态值,同时根据附近的障碍决定如何行动,很利索!
检查CNN的激活函数,看看对于值预测(左)和策略预测(右),哪些是重要因素?
顺便提一句,我随手玩了一下现成的代码,发现图像学习对于超参数特别敏感。比如:稍微改变一下折扣率,即使是一个玩具应用,神经网络也无法学习了。这个问题是大家都知道的,但亲身体验一下也蛮有意思的。
6. 微妙动作
到目前为止,我们已经尝试过了状态空间是连续和离散的两种场景。
然而,我们探讨的所有这些场景的动作空间都是离散的:向四个方向之一进行移动,或者向左向右倾斜托盘。理论上,类似自动驾驶等应用,我们需要学习连续的动作,比如在0-360度之间转动方向盘。在这种叫“3D球世界”的场景里,我们可以沿着托盘的每一个轴倾斜任意角度。这给了我们执行动作更多的控制,但也使动作空间大了很多。
为解决这个问题,我们通过高斯分布来逼近可能的选择。我们学习到高斯分布的均值和方差之后,就可以学习所有可能动作的概率分布,以及我们从这个分布中抽样出来的策略。原理很简单。
7. 勇敢者的下一步
因为一些概念的缺失,使得上面讲的算法称不上最好的。让人觉得有意思的是,在概念上,最优秀的机器人和游戏算法与我们讨论的那些相隔并不遥远。
并行:A3C是最广泛使用的方法。它在actor critic中加入一个异步步骤,允许算法并行运行,使得解决一些有趣问题所花费的时间处于可接受范围。进化式算法的并行能力更强,其性能令人鼓舞。
课程式学习:在很多情况下,几乎不可能在随机动作中获得奖励。由于学不到有用的东西,让探索阶段很难搞。在这种情况下,我们可以简化问题,先解决容易的,再用基本模型对付越来越复杂的场景。
记忆:例如用LSTM,我们能记住过去发生的事情,并在游戏进程中一步步做出决策。
基于模型的RL:在算法进行学习时,有多种方法可以建立一个世界模型。因此,它们可以基于运作简单而又回报很高的动作,推测出世界运行的规则。AlphaZero包括一个非常清晰的含有计划的模型,这篇论文让我觉得十分振奋。
总结就到这里,我希望内容是充实、有趣的!
本文为 AI 研习社编译的技术博客,原标题 :Reinforcement Learning from scratch
作者:Emmanuel Ameisen
翻译:AI小山
原文链接:https://blog.insightdatascience.com/reinforcement-learning-from-scratch-819b65f074d8
本文来源于人人都是产品经理合作媒体 @雷锋网,翻译@AI小山
题图来自Unsplash,基于CC0协议。
科学家研发灵活的“纸弹簧”机械臂,有望实现远程无线操控手术
传统的机械臂又大又重,并且受驱动器(电机或气动泵)的限制,如果在人员和机器访问受限的恶劣环境中,机械臂的适用性、操作灵活性和多功能性将极大被束缚。
那么,是否可以制造一种不受驱动器尺寸和管线束缚的机械臂呢?
图丨该成果在 PNAS 首页推荐(来源:PNAS)
近日,斯坦福大学赵芮可教授团队(原俄亥俄州立大学)与佐治亚理工学院联合开发了一种应用折纸结构的“纸弹簧”机械手臂,它像章鱼触手一样灵活,并且可实现远程操控及小型化。可不受驱动器限制,而是在周围磁场的变化下 “启动”,可提供集成的大收缩/展开、万向弯曲和扭曲等灵活的多自由度变形和物体抓取能力。
该团队表示,因为折纸工艺允许平面材料或结构重塑为三维结构,实现不同尺度的复杂机器人运动,可以被应用到包括变形结构、生物医学设备、航空航天和电子等工程领域。
动图丨机械臂的展开和收缩(来源:PNAS)
相关论文以《可万向弯曲和扭曲的可拉伸折纸机械臂》(Stretchable origami robotic arm with omnidirectional bending and twisting)为题发表在 PNAS,并于 9 月 7 日被推荐到 PNAS 首页。
图丨相关论文(来源:PNAS)
该研究共同一作为斯坦福大学软智能材料实验室的(原俄亥俄州立大学Soft Intelligent Materials Laboratory)博士生吴帅、博士后迮弃疾,其他作者包括俄亥俄州立大学硕士生戴继泽、加州大学伯克利分校的硕士生孙悦(原SIM Lab本科生助研)。
章鱼科研迅速地重新配置其手臂,执行游泳、步行和捕食等高度集成的任务。受这种软体头足类生物系统的启发,该团队与折纸结构单元结合,然后设计了柔顺的 “纸弹簧” 机械臂。
该机械臂实现了像章鱼手臂一样,连续的变形、可调节以及用于移动和捕食的敏捷动作。通过精确的磁驱动,实现将拉伸、折叠、万向弯曲和扭曲等功能整合的多模态变形。
图丨用于收缩/展开和全向弯曲的磁性 Kresling 单元的驱动机制(来源:PNAS)
为构建与章鱼手臂原理相似的机械臂,研究人员选择了 “分段法”。嵌入磁性颗粒的磁片和 Kresling 折纸结构被连接在一起构成单个 Kresling 结构单元,在磁场的控制下可以分时实现收缩、展开和全向弯曲。
接下来,该团队把这些单个分段单元整合连接,再把手臂放在可控的磁场中。由于每个部分都有属于自己的磁化各异的磁片,研究人员通过改变磁场的参数实现了单独控制机械臂的每个部分,它将 Kresling 结构的弯曲与展开相结合,并通过磁场的分布式驱动实现了整个机械臂的灵活控制。
动图丨四单元机械手臂的驱动机制(来源:PNAS)
研究人员指出,“将磁场计算机化,可以让用户使用类似游戏的控制器的简单操作就可以对手臂进行非常精细的控制。在这样的环境下,带有手或爪的手臂可以自由地移动变形。此外,该设计允许根据应用自由定制,包括单元数、尺寸、变形方式和程度。”
图丨具有拉伸、弯曲和扭曲运动的章鱼式机械臂(来源:PNAS)
远程磁场控制允许分布式驱动多自由度机器人系统进行复杂运动,以实现上述变形能力和功能。赵芮可告诉 DeepTech,“该研究的难点在于设计的灵活性带来的大量设计变量,增加了设计的难度,未来我们考虑采用计算机辅助优化方法来简化机械臂的设计过程。”
通过磁性 Kresling 结构的精巧设计和对施加磁场的精确控制,具有集成多模态变形的折纸机械臂可用于大收缩/展开、全向弯曲和扭曲。
除此之外,该团队表示,“磁驱动使机械臂易于小型化,具有灵活的集成变形和物体抓取的能力,允许在狭窄的生物医学环境中开发微型医疗设备,如胃、肠、气管和支气管等。”
图丨与医用导管尺寸相近的机械臂(来源:PNAS)
赵芮可对 DeepTech 表示,该机械手臂并不是为了重物抓取而设计,他们设想将它或类似的设计用于操作更精细的应用中,例如医疗领域的体内环境。“未来,我们计划在医疗环境中进行不断地实验改进,结合现在成熟的磁场控制医疗设备,如核磁共振仪,期望将该机械臂技术不断向实际应用推进。”
相关问答
电子多臂 机 原理 ?电子多臂机工作原理:电子多臂机由提综与选综两大部分组成,提综装置采用旋转式机械控制或回转式,选综用二进制逻辑信号代替纹板,采用微机-电磁阀控制。通过机...
多臂 机 原理 ?多臂机的工作原理主要是利用机械传动的原理,通过电动机和传动系统的转换,将电信号转化为机械动作。具体来说,当多臂机的控制系统中输入一个动作信号时,微处理...
带线调整臂的 原理 ?带线调整臂是一种机械装置,用于调整和控制机械系统中的运动。它的原理是通过调整臂上的线的长度和位置,来改变机械系统中的运动轨迹和力的传递方式。具体来说,...
多臂 机故障维修 与原理 ?多臂机是织布机中的一种,其故障维修和原理如下:多臂机的原理主要是依靠多臂头在轨道上运动,来带动综框上下运动,从而控制经纱的升降,形成梭口的开口大小。多...
太空机械臂的 原理 ?太空机械臂原理是通过技术,利用机械臂的定位功能,通过不同形势手爪的使用,完成对于航天器舱内和舱外不同目标的拾取、搬运、定位和释放。通过在轨自主操作与...
空间送丝多功能电焊吸烟除尘臂的 原理 是什么?[回答]焊烟净化吸尘臂:对焊烟有很好的净化效果。焊接时,吸尘口与焊接位置对齐,能有效地吸进焊接烟气,然后净化排出。对环境有很好的保护作用,改善了员工的...
多连杆悬挂有什么 原理 _车坛多连杆悬挂原理是:1、多连杆独立悬架的功能特性:多连杆式悬挂不仅可以保证拥有一定的舒适性,而且由于连杆较多,可以使车轮和地面尽最大可能保持垂直...
【物理中杠杆动力臂阻力臂不同长度两边同时添加一个相同重物...[回答]不会,力臂长的作用效果明显杠杆的定义杠杆是一种简单机械。在力的作用下能绕着固定点转动的硬棒就是杠杆(lever).杠杆不一定必须是直的,也可以...
多连杆悬架工作 原理 是什么_车坛多连杆悬架工作原理是:1、顾名思义,就是通过各种连杆配置(通常有三连杆,四连杆,五连杆),首先能实现双叉臂悬挂的所有性能,然后在双叉臂的基础上通过...
智能机械 臂原理 ?智能机械臂是一种通过计算机视觉、感知、运动控制等技术实现精准操作的机械臂。它采用高精度的传感器、运动控制器和算法,能够识别、定位并操作目标物体,实现...