原文链接:1808.04355
简介
本文研究了在强化学习(RL)中纯粹依靠好奇心驱动学习的有效性,而不依赖外部奖励。研究旨在探索基于预测误差的内在动机(即好奇心)如何在不同环境中驱动智能体的探索与学习。
主要贡献如下:
- 大规模实证研究:作者在54种环境中进行了实验,包括Atari游戏、《超级马里奥兄弟》、Roboschool任务和3D导航任务,以评估好奇心驱动学习的效果。
- 特征空间分析:比较了不同特征空间(随机特征、原始像素、逆动力学特征和变分自编码器)在预测误差计算中的表现,发现随机特征在多数任务中表现良好,而学习到的特征泛化能力更强。
- 泛化能力:研究表明,好奇心驱动的智能体能够泛化到新环境,例如《超级马里奥兄弟》中未见的关卡。
- 局限性:作者指出了某些挑战,例如“噪声电视问题”,即在随机环境中,好奇心驱动的智能体可能会被无关的随机刺激误导。
方法
内在奖励的生成机制
基于动态预测的好奇心驱动探索方法的核心思想是:通过智能体对自身行为后果的预测误差(即“惊讶度”)来生成内在奖励(intrinsic reward),从而激励智能体探索未知或复杂的动态环境。
一般来说,该类方法由以下两部分组成:
-
观测embedding网络:使用神经网络$\phi(\cdot)$将原始观测(如像素)映射到低维特征空间$\phi(x)$。避免直接在高维原始观测(如像素)上计算预测误差,因为像素级变化可能包含无关噪声(如光照变化)。
-
前向动力学网络:输入当前状态特征$\phi(x_t)$和动作$a_t$,预测下一状态的特征$\phi(x_{t+1})$:
$$ f(\phi(x_t), a_t) \approx \phi(x_{t+1}) $$
-
预测误差的两种视角:
-
理论视角(对数概率):
$$ r_t = -\log p(\phi(x_{t+1}) \mid x_t, a_t) $$
奖励定义为预测的负对数似然:
其中$p(\cdot)$是动态模型预测的概率分布。- 意义:若实际观测$\phi(x_{t+1})$在预测分布中概率低(即“Surprisal”),则奖励高。
-
实现视角(均方误差/MSE):
$$ r_t \propto \|f(\phi(x_t), a_t) - \phi(x_{t+1})\|_2^2 $$
假设预测误差服从固定方差的高斯分布$\mathcal{N}(f(x_t, a_t), \sigma^2 I)$,则:
- 意义:预测与实际的欧氏距离越大,奖励越高。
- 与对数概率的关系:对高斯分布,负对数似然正比于 MSE(见数学推导)。 MSE 是高斯假设下的工程简化。
-
-
附:数学推导(对数概率 → MSE)
$$ p(\phi(x_{t+1}) \mid x_t, a_t) = \frac{1}{(2\pi\sigma^2)^{d/2}} \exp\left(-\frac{\|f(x_t, a_t) - \phi(x_{t+1})\|_2^2}{2\sigma^2}\right) $$
假设$\phi(x_{t+1}) \sim \mathcal{N}(f(x_t, a_t), \sigma^2 I)$,则:
$$ -\log p(\cdot) = \frac{\|f(x_t, a_t) - \phi(x_{t+1})\|_2^2}{2\sigma^2} + \text{常数} $$
取负对数后:
忽略常数项和缩放因子$1/(2\sigma^2)$,即得 MSE 形式的奖励。
前向动态的特征空间
选择一个合适的特征空间对于好奇心驱动学习的性能至关重要。在好奇心公式中,表示$\phi$的选择直接影响前向动力学模型在何种空间中进行预测。一个好的特征空间应该具备以下品质:
- 紧凑(Compact):特征应为较低维度,并过滤掉观测空间中不相关的信息,以便于建模。
- 充分(Sufficient):特征应包含所有重要信息,否则智能体可能无法因探索环境中的相关方面而获得奖励。
- 稳定(Stable):非平稳的奖励会使强化学习智能体难以学习。虽然探索奖励本身会引入非平稳性(新颖的事物会随着时间变得无聊),但特征学习过程中的变化应尽可能最小化。
本文系统地考察了以下几种特征学习方法:
- 像素:
- 描述:直接在原始观测空间(像素)上拟合前向动力学模型。
- 特点:充分(未丢失任何信息),稳定(没有特征学习组件)。
- 缺点:观测空间可能高维且复杂,难以学习良好的动力学模型,预测误差可能被微小且不相关的细节主导。因此,在所有环境中表现不佳。
- **随机特征:
- 描述:使用一个卷积网络作为embedding网络,但在随机初始化后将其固定(冻结)。
- 特点:稳定(网络固定),可紧凑(可控制维度)。
- 缺点:可能不够充分。
- 表现:在许多任务中表现出人意料地好,有时甚至优于学习特征。这是因为特征是固定的,动力学模型在其上学习时更容易,因为目标是平稳的。在视觉观测足够简单、随机特征能保留足够原始信号信息的领域(例如Atari游戏),它们表现良好。
- **变分自编码器特征:
- 描述:利用VAE 来拟合潜在变量生成模型,将其输出为均值的编码器部分作为embedding网络$\phi$。
- 特点:能生成低维且近似充分的观测摘要。
- 缺点:可能仍包含不相关细节(如噪声),且特征会随着VAE训练而随时间变化,因此不稳定。
- 表现:虽然表现良好,但有些不稳定。
- **逆动力学特征:
- 描述:给定一个transition$(s_t, s_{t+1}, a_t)$,逆动力学任务是给定先前和下一状态$s_t$和$s_{t+1}$,预测动作$a_t$,其中的特征学习则是通过一个神经网络$\phi$来学习$s_t$和$s_{t+1}$的embedding。
- 特点:易于实现,原则上对某些噪声具有不变性。
- 缺点:学习到的特征可能不够充分,即它们可能不能表示出智能体无法立即影响的环境的重要方面。
- 表现:在Atari游戏中,IDF在55%的情况下优于RF。在Mario Bros.中,IDF学习到的特征似乎比随机特征具有更好的泛化能力,尤其是在面对新的游戏关卡(如日夜切换)时。
纯好奇心驱动智能体训练中的相关实践
除了选择特征空间,实现一个实用的系统还需要关键的算法选择。为了提高学习的稳定性和跨环境的一致性,研究采取了以下措施:
- PPO:PPO 被选为学习算法,因为它通常稳健且所需的超参数调整较少。
- 奖励归一化:由于奖励函数是非平稳的,通过除以折现奖励总和的标准差的运行估计值来归一化奖励的规模,有助于价值函数更快地学习。
- 优势归一化:在PPO训练期间,批处理中的优势值被归一化为均值为0,标准差为1。
- 观测归一化:通过让一个随机智能体在目标环境中运行10000步,计算观测的均值和标准差,并在训练时用它们归一化观测。这有助于确保特征在初始化时不会有非常小的方差,并减少不同环境间的差异。
- 增加并行执行器数量:增加并行执行器数量(影响批处理大小)可以显著提高方法的稳定性。研究通常使用128个并行环境实例进行数据收集,在Mario大型实验中甚至达到了2048个。
- 特征归一化:在组合内在和外部奖励时,通过在特征embedding网络中使用批归一化(batch-normalization) 来确保内在奖励的规模在整个状态空间中保持一致。
“死亡并非终结”
在传统强化学习中,环境通常会在智能体“死亡”(如游戏结束)时发送一个终止信号(done
),并重置环境。这一信号可能隐含以下信息:
- 正向暗示:例如,在《Breakout》中,存活时间越长,得分越高,因此智能体会避免死亡以延长episode。
- 负向暗示:在某些环境中,死亡可能伴随负奖励,智能体会主动寻求快速结束episode以最小化惩罚。
那么,如果好奇心驱动的智能体接收到done
信号,可能会被“误导”,其行为可能并非由好奇心驱动,而是受隐含的生存或死亡奖励影响。因此,作者提出在纯粹好奇心驱动的实验中移除done
信号,将环境设置为无限时域(infinite horizon),即:死亡仅被视为普通状态转移:智能体不会因死亡被强制重置,而是继续从新状态开始探索。有趣的是,作者发现智能体在游戏中会避免死亡,因为死亡会将其带回游戏的初始状态 —— 一个它已经见过多次且能很好预测动态的区域。
实验
实验与初步发现
该研究在包括48个Atari游戏、Super Mario Bros.、Roboschool物理模拟和Unity 3D导航任务在内的54个多样化模拟环境中进行了大规模实验。所有实验中,策略和embedding网络都直接从像素进行操作,并使用四帧的历史观测堆栈来捕获部分可观察性。
- 纯好奇心驱动下的意外表现:研究发现,在没有外部奖励和结束回合信号的情况下,纯粹好奇心驱动的智能体依然能够获得外部奖励,并且在某些情况下,其得分与使用外部奖励学习的智能体相当。例如,在《Breakout》中,智能体通过撞击砖块获取积分,砖块被连续撞击的次数越多,剩余砖块的图案就越复杂,这促使智能体好奇心更强地去探索,从而附带地收集到积分。当智能体生命耗尽后,砖块会重置为统一的结构,这对于智能体来说是已经见过多次且高度可预测的区域,因此智能体会试图通过避免死亡来保持好奇心。
- 特征空间的表现对比:训练在原始像素上的动力学模型在所有环境中表现不佳。随机特征(RF)和逆动力学特征(IDF)则表现良好。尽管随机特征在训练时表现出色,但IDF学习到的特征在《超级马里奥兄弟》的新关卡中显示出更好的泛化能力(例如,从白天到夜晚的关卡变化)。
- 大规模训练的潜力:通过增加并行环境线程的数量(从128到2048),研究表明,使用更大批处理量的训练可以显著提高纯好奇心驱动智能体的性能,使其能够探索更多游戏内容,例如在《超级马里奥兄弟》中发现11个不同关卡、秘密房间并击败boss。
- 涌现行为:在Roboschool的“Juggling”任务中,智能体学会了拦截和击打球。在“Ant”环境中,纯粹好奇心驱动的训练使得智能体能够学习到类似行走的步态。在双人《Pong》游戏中,两个好奇心驱动的智能体学会了进行更长、更多的回合,纯粹依靠好奇心玩游戏。
- 对稀疏外部奖励的帮助:在3D导航迷宫中,传统的仅有外部奖励(稀疏的终点奖励)的RL方法无法找到目标,而结合了外部奖励和内在好奇心奖励的智能体则能够稳定收敛并获得奖励。
局限性与未来展望
尽管好奇心驱动学习取得了显著进展,但仍存在局限性。一个主要问题是随机动力学的处理。如果环境转换是随机的,那么即使动力学模型完美,预期奖励也会是转换的熵,智能体会寻求熵最高的转换。研究通过一个“噪声电视问题”进行了经验验证:在一个迷宫中加入一台随机换台的电视,智能体会对此表现出难以抵挡的吸引力,从而显著减缓学习速度。这表明随机性确实是一个问题,需要在未来的工作中有效解决。
总而言之,这项大规模研究展示了一种简单且可扩展的方法,可以在没有奖励函数或结束回合信号的情况下,使智能体学习到非平凡的行为。虽然随机特征表现出人意料地好,但学习到的特征似乎具有更好的泛化能力,这可能在环境足够复杂时变得更加重要。未来的工作可以进一步探索从“未标记”(没有预设奖励函数)的环境中学习,并将这些学习到的技能迁移到特定任务中。
这项研究为强化学习的未来发展提供了重要启示,即我们或许能够利用大量“未标记”的环境数据,通过内在动机来训练出更通用、更强大的智能体。