首页文章阅读微信小程序高质量微信号古诗词大全

微信扫一扫
分享到朋友圈

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

作者：机器之心来源：机器之心公众号

分享到：

05-03

选自Trends In Cognitive Sciences

作者：Matthew Botvinick等

机器之心编译

机器之心编辑部

近年来，深度强化学习方法给人工智能领域带来了很大的进展，在很多领域都超越了人类表现，比如雅达利游戏、围棋和无限制德扑。不过虽然它们很强大，但学习效率的低下让它们很难推广到更普遍的任务，也许结合「快」与「慢」的学习才是强化学习应该走的路。

DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上发表文章，概览了深度强化学习中的一些新技术，这些技术旨在弥补强化学习智能体与人类之间的学习速度鸿沟。正如上个月打 TI 8 的 OpenAI Five，它相当于人类玩了「4 万 5 千年」的 Dota 2 游戏，如果智能体能像人类那样「快学习」，也许它的学习能更高效。

其实很多人认为样本效率低下，学习过程过于缓慢，无法提供了解人类学习的可靠模型。在本文中，DeepMind 研究人员利用最近开发的技术反驳了这一批评。这些技术允许深度强化学习更灵活地进行操作，能够比之前的方法更快速地解决问题。

深度强化学习的快与慢

近期的 AI 研究引出了强大的技术，如深度强化学习。深度强化学习将表示学习和奖励驱动的行为结合起来，似乎与心理学和神经科学具备内在的相关性。然而深度强化学习需要大量训练数据，这表明深度强化学习算法与人类学习的底层机制存在根本区别。

当这一担忧被带到深度强化学习第一波浪潮时，后续的 AI 工作创建了一些方法，允许深度 RL 系统更快、更高效地学习。两种有趣且有前景的技术分别是 episodic memory 和。

除了作为 AI 技术以外，利用 episodic memory 和元学习的深度 RL 方法还在心理学和神经科学上有直接且有趣的应用。这些技术揭示了一个微妙但非常重要的洞见，即学习的快与慢之间的基础联系。

深度强化学习的「慢」是指每一个任务都要极其庞大的试错过程，它不能像人类那样利用经验或知识快速学习。但这种慢却也非常有优势，智能体能找到更好的解决方案、更具有创新性的观点等等。反观深度学习的「快」，我们希望借助决策经验，帮助智能体快速学习新任务与新知识。

也许结合了「快」与「慢」的强化学习，才是以后真正理想的强化学习。

强大但慢速：第一波深度强化学习

从这个角度来看，AI 研究中一个极具吸引力的领域是深度强化学习。深度强化学习将神经网络建模和强化学习相结合。过去几十年来，深度强化学习一直可望而不可及。直到过去五年里，它强势发展为 AI 研究中最激烈的领域之一，在多种任务（比如视频游戏、扑克、多人游戏和复杂的棋盘游戏）中超越人类表现。

原论文 BOX 1 图 1：深度强化学习的代表性示例。

除了 AI 领域以外，深度强化学习似乎对心理学和神经科学也有着特殊的兴趣。深度 RL 中驱动学习的机制最初是受动物条件作用研究启发的，并被认为与基于奖励学习（以多巴胺为中心）的神经机制密切相关。

同时，深度强化学习利用神经网络来学习支持泛化和迁移的强大表征，而这正是生物大脑的核心能力。鉴于这些联系，深度 RL 似乎为对人类和动物学习感兴趣的研究者提供了丰富的想法和假设，无论是行为还是神经科学层面。而这些研究者也的确开始将目光转向深度强化学习。

同时，对第一波深度强化学习研究的评论也敲响了警钟。乍一看，深度强化学习系统的学习方式与人类截然不同。有人认为，这种差异在于二者的样本效率。样本效率是指学习系统达到任何选定的目标性能所需的数据量。

根据这一衡量标准，最初的深度 RL 系统确实与人类学习者有着很大区别。为了在雅达利视频游戏等任务上达到媲美人类专家的水平，深度 RL 系统需要比人类专家多得多（多几个数量级）的训练数据 [22]。简而言之，最初的深度 RL 速度太慢，无法为人类学习提供可信的模型。

这一评论确实适用于自 2013 年出现的第一波深度 RL。但，此后不久，深度 RL 开始发生重要改变，其样本效率急剧提升。这些方法降低了深度 RL 对大量训练数据的需求，使其速度大大加快。这些计算技术的出现使得深度 RL 成为人类学习的候选模型，以及心理学和神经科学的见解来源。

本文中，DeepMind 研究人员认为有两个关键的深度 RL 方法缓解了其样本效率问题：episodic deep RL 和元强化学习。他们探索了这两种方法是如何加快深度 RL 的，并考虑了深度 RL 对于心理学和神经科学的潜在影响。

Episodic 深度强化学习：通过 episodic memory 进行快速学习

如果增量参数调整是深度 RL 学习速度慢的一个原因，那么一种解决方法是避免此类增量更新。但简单地增加学习率（学习率控制梯度下降优化）会导致灾难性的干扰问题。

不过，近期研究表明还有另外一种解决方法：明确记录过去的事件，然后直接使用该记录作为制定新决策时的参考点。这就是 Episodic RL，它类似于机器学习中的「非参数」方法和心理学中的「基于实例」或「基于样本」的学习理论。

当遇到新场景、必须作出执行什么动作的决策时，该算法会对比当前场景的内部表示和过去场景的表示。之后根据与当前场景最相似的过去场景选择具备最高值的动作。

当内部状态表示是根据多层神经网络来计算时，我们将得到的算法叫做 episodic deep RL。该算法的示意图详见下图。

与标准增量方法不同，episodic deep RL 算法可直接利用过往事件中收集到的信息来指导行为。尽管 episodic deep RL 比较快，之前的深度强化学习方法比较慢，但是前者的快速学习依赖于缓慢的增量学习。正是连接权重的逐渐学习才使得系统形成有用的内部表示或每个新观测的嵌入。

这些表示的格式是通过经验学到的，所使用的方法正是构成标准深度 RL 骨干网络的增量参数更新。总之，episodic deep RL 的速度是这种较慢的增量学习促成的。也就是说，快速学习根植于慢速学习。

快速学习对慢速学习的依赖并非巧合。除了 AI 领域，这一原则还可应用于心理学和神经科学。

Meta-RL：加速深度强化学习的另一方法

正如原论文前面介绍过的，除了增量式的更新，深度强化学习慢速的第二个原因在于较弱的归纳偏置（inductive bias）。正如偏差-方差权衡概念中所形式化的，快速学习要求学习者使用一组合理大小的假设（hypotheses），且这些假设描述了学习者将要面临的模式结构。假设配置地越狭隘，那么学习的速度就越快。

然而，正如前面所预示的，问题是只有在假设空间包含正确的假设情况下，收缩假设集才会加速学习过程。因此，现在出现了一个新的学习问题：学习者如何知道该采用什么样的归纳偏置？

该问题有一个非常自然的回答，即借鉴过去的经验。当然，这种想法显然在人类日常生活中也是非常自然的。例如我们想要学习使用新的智能手机，那么以前使用智能机或相关设备的经验将帮助学习过程。

也就是说，以前的经验会为「新手机如何工作」这个问题提供一个合理的假设集。这些初始的假设即对应于偏差-方差权衡中的「偏差」，它提供一种偏置信息来帮我们快速学习新的知识。

对于标准的深度学习，学习者并没有这些偏置信息，也就是会有较高的方差，所以学习者会考虑很大范围内的假设，从而希望找到那一个带有偏置的最优假设。

利用过去经验加速新学习过程，这在机器学习中被称为元学习。毫不奇怪，这个概念源自心理学，它也被称为「学习如何学习」。在第一篇使用元学习的论文中，Harlow [34] 通过一个实验巧妙地捕捉了它的原理。

他们发现猴子总能弄清楚一些简单规则，例如一个不熟悉的物体可能带来食物，另一个并不会，且不管这两个物体的左右顺序是什么样的。所以弄清这样简单规则后，再换两种不同的物体，它也只需一次学习就弄清到底哪个新物体能带来食物，这就是学习如何学习。

原论文 BOX 3 图 1 C：Harlow 的实验，它展示了训练中动物和智能体的行为变化。

现在再回到机器学习，最近很多研究工作都表明学习如何学习能够加速深度强化学习。这一通用观点可以通过多种方式实现，然而，Wang [37] 和 Duan [38] 等研究者提出了一种与神经科学和心理学特别相关的一种方法。

在他们的方法中，可以在一系列相互关联的强化学习任务中进行训练。因为网络中的权重调整非常慢，所以它可以获得不同任务中的通用知识，但不能快速调整以支持任意单个任务的解决方案。

在这种倩况下，循环神经网络的动态过程可以实现其独立的强化学习算法，因此能基于所有过去任务获得的知识，快速解决新的任务（如下图所示）。实际上，一个 RL 算法产生另一种强化学习算法，又可以称之为「meta-RL」。

元强化学习图示。

与 Episodic 深度强化学习一样，Meta-RL 再次涉及快速和慢速学习之间的密切联系。循环神经网络的连接在不同任务中慢慢学习与更新，因此跨任务的一般原则或模式能「内嵌」到 RNN 的动态过程中。因此网络的不同动态过程（或时间步）能实现新的学习算法，也能快速解决某个新任务。

因为慢学习嵌入了足够多的知识，也就是足够有用的归纳偏置，所以快速学习就能建立在慢速学习的基础上了。

Episodic Meta-RL

重要的是，episodic deep RL 和 Meta-RL 并不是互相排斥的。近期研究发现了一种方法可以将二者融合起来，实现互补。在 episodic meta-RL 中，元学习发生在循环神经网络中。但它上面叠加了一个 episodic memory 系统，该系统使该循环神经网络中的活动模式复原。

和 episodic deep RL 一样，该 episodic memory 系统整理过去事件的集合，然后基于当前场景查询。但是，episodic meta-RL 不是将语境和值估计连接起来，而是将语境与来自循环神经网络内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为它们通过 meta-RL 总结出智能体从单个任务中学得的东西。

在 episodic meta-RL 中，当智能体遇到与过去事件类似的场景时，它首先复原之前事件的隐藏活动，允许之前学得的信息直接作用于当前的策略。episodic memory 允许系统识别之前遇到的任务，然后检索已经存储的解决方案。

通过在 bandit 任务和导航任务中的模拟，Ritter 等人 [39] 展示了 episodic meta-RL 和原版 meta-RL 一样学习强大的归纳偏置，使其能够快速解决新任务。

更重要的是，当面临之前见过的任务时，episodic meta-RL 直接检索并复原之前发现的解决方案，避免重新探索。在遇到新任务时，系统受益于 meta-RL 的快速性；在第二次或之后再遇到时，系统受益于 episodic control 带来的 one-shot 学习能力。

最后，文章一作 Matthew Botvinick 曾发表演讲，详细介绍了强化学习的快与慢。感兴趣的读者，请戳：

原文地址：https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

查看原文

阅读39059