这篇文章聊一聊强化学习在实践过程中经常聊到的在强化学习中,和稀疏奖励(Sparse Rewards)、信用分配(Credit Assignment)和探索与利用(Exploration vs. Exploitation)是三个相互关联的核心问题。
核心问题概述
稀疏奖励
指任务中只有在最终成功时才有奖励,其余时间无反馈。
常见的解决方法主要有设计中间奖励(Dense Rewards)、设计内部奖励(Intrinsic Rewards)、分层强化学习(HRL)、逆强化学习(IRL)以及增强探索机制来实现。
信用分配
指如何将延迟奖励归因于正确的动作或状态,一般分为两个层次
- 时序信用分配(Temporal credit assignment):奖励该归因于哪个时间点的动作?
- 结构信用分配(Structural credit assignment):在多智能体或模块化系统中,奖励该归因于哪个子系统、哪个agent、哪个模块?
$TD(\lambda)$ 、GAE都是常见的时序信用分配方法,但往往只能用于短时任务,长时任务则需要结合HRL、Transformer 结构等方法。结构信用分配常见于多智能体强化学习(MARL),常见的方法如值函数分解、反事实推理等。
探索与利用
指在探索未知策略和利用已有策略之间做权衡:
- 过度利用 → 陷入局部最优。
- 过度探索 → 收益不稳定。
常见的方法有设计内部奖励、分层强化学习(HRL)、基于模型的探索等。
三者之间的关系
- 稀疏奖励 → 信用分配困难:当奖励稀疏时,智能体很难判断哪个动作导致了最终奖励
- 稀疏奖励 → 探索压力加大:没有中间奖励反馈会导致智能体很难发现正确的路径
- 信用分配不准确 → 学不到有效策略 → 影响探索与利用:如果奖励被错误归因,智能体会过度利用错误策略,从而减少有效探索。
可以看出,稀疏奖励是问题的起点,加剧了信用分配的挑战,同时也提升了对有效探索机制的需求。信用分配的准确性反过来又影响探索效率和利用策略的质量。它们是强化学习中的三大挑战,互相交织,必须协同解决。
其他重要问题
样本效率
样本效率(Sample Efficiency)指智能体需要多少交互数据(episodes/steps)才能学到一个可用的策略。稀疏奖励和探索低效直接导致样本效率低下。
常用的解决方法是一些经验重用方法如如优先经验回放(PER)、模型强化学习(MBRL)减少真实环境交互、迁移学习(Transfer Learning)复用先验知识等。
部分可观测性
部分可观测环境(Partial Observability, POMDP)中,智能体无法获取完整状态信息,导致:
- 信用分配更难:因状态不完整,难以确定动作的真实影响。
- 探索效率更低:需探索更多可能性以弥补信息缺失。
- 稀疏奖励更致命:有限的观测可能完全掩盖奖励信号。
常用的解决方法是使用记忆模型(如LSTM、Transformer)或信念状态(Belief State)建模历史信息。
长期依赖
长期依赖(Long-Term Dependencies)指在长时任务中,智能体是否能够为长远收益而做出当前牺牲。本质上是时序信用分配和稀疏奖励问题。
策略退化
策略退化(Policy Degeneration)指策略可能因早期偶然成功而僵化。常发生在稀疏奖励环境下,探索不足(智能体过早收敛到次优策略)、信用分配偏差(错误关联奖励与无关动作)均可能是潜在原因。
奖励函数设计
不合理的奖励函数(如稀疏或误导性奖励)会直接加剧信用分配和探索的难度。如常见的Reward Hacking就是奖励设计错误或者过于简单,导致智能体虽然获得高回报但是无法真正完成目标的现象。
稀疏奖励问题本质是奖励函数设计的失败案例,所以,一切问题本质其实都是奖励问题。