强化学习的核心问题

这篇文章聊一聊强化学习在实践过程中经常聊到的在强化学习中,和稀疏奖励(Sparse Rewards)、信用分配(Credit Assignment)和探索与利用(Exploration vs. Exploitation)是三个相互关联的核心问题。

核心问题概述

稀疏奖励

指任务中只有在最终成功时才有奖励,其余时间无反馈。
常见的解决方法主要有设计中间奖励(Dense Rewards)、设计内部奖励(Intrinsic Rewards)、分层强化学习(HRL)、逆强化学习(IRL)以及增强探索机制来实现。

信用分配

指如何将延迟奖励归因于正确的动作或状态,一般分为两个层次

  • 时序信用分配(Temporal credit assignment):奖励该归因于哪个时间点的动作?
  • 结构信用分配(Structural credit assignment):在多智能体或模块化系统中,奖励该归因于哪个子系统、哪个agent、哪个模块?
    $TD(\lambda)$ 、GAE都是常见的时序信用分配方法,但往往只能用于短时任务,长时任务则需要结合HRL、Transformer 结构等方法。结构信用分配常见于多智能体强化学习(MARL),常见的方法如值函数分解、反事实推理等。

探索与利用

指在探索未知策略和利用已有策略之间做权衡:

  • 过度利用 → 陷入局部最优。
  • 过度探索 → 收益不稳定。
    常见的方法有设计内部奖励、分层强化学习(HRL)、基于模型的探索等。

三者之间的关系

  • 稀疏奖励 → 信用分配困难:当奖励稀疏时,智能体很难判断哪个动作导致了最终奖励
  • 稀疏奖励 → 探索压力加大:没有中间奖励反馈会导致智能体很难发现正确的路径
  • 信用分配不准确 → 学不到有效策略 → 影响探索与利用:如果奖励被错误归因,智能体会过度利用错误策略,从而减少有效探索。

可以看出,稀疏奖励是问题的起点,加剧了信用分配的挑战,同时也提升了对有效探索机制的需求。信用分配的准确性反过来又影响探索效率和利用策略的质量。它们是强化学习中的三大挑战,互相交织,必须协同解决。

其他重要问题

样本效率

样本效率(Sample Efficiency)指智能体需要多少交互数据(episodes/steps)才能学到一个可用的策略。稀疏奖励和探索低效直接导致样本效率低下。
常用的解决方法是一些经验重用方法如如优先经验回放(PER)、模型强化学习(MBRL)减少真实环境交互、迁移学习(Transfer Learning)复用先验知识等。

部分可观测性

部分可观测环境(Partial Observability, POMDP)中,智能体无法获取完整状态信息,导致:

  • 信用分配更难:因状态不完整,难以确定动作的真实影响。
  • 探索效率更低:需探索更多可能性以弥补信息缺失。
  • 稀疏奖励更致命:有限的观测可能完全掩盖奖励信号。
    常用的解决方法是使用记忆模型(如LSTM、Transformer)或信念状态(Belief State)建模历史信息。

长期依赖

长期依赖(Long-Term Dependencies)指在长时任务中,智能体是否能够为长远收益而做出当前牺牲。本质上是时序信用分配和稀疏奖励问题。

策略退化

策略退化(Policy Degeneration)指策略可能因早期偶然成功而僵化。常发生在稀疏奖励环境下,探索不足(智能体过早收敛到次优策略)、信用分配偏差(错误关联奖励与无关动作)均可能是潜在原因。

奖励函数设计

不合理的奖励函数(如稀疏或误导性奖励)会直接加剧信用分配和探索的难度。如常见的Reward Hacking就是奖励设计错误或者过于简单,导致智能体虽然获得高回报但是无法真正完成目标的现象。

稀疏奖励问题本质是奖励函数设计的失败案例,所以,一切问题本质其实都是奖励问题

comments powered by Disqus
发表了21篇文章 · 总计4万5千字
使用 Hugo 构建
主题 StackJimmy 设计