EasyRL:强化学习教程(王琦杨毅远江季)

书: https://pan.baidu.com/s/15VfTw9eJ2MoiHktwswP0gw?pwd=tq5x
笔记如下:

一、强化学习基础

  1. “强化学习(RL)的核心范式:智能体通过环境交互→奖励反馈→策略更新的循环学习最优行为。”
  2. “马尔可夫决策过程(MDP)五元组:<S, A, P, R, γ>,分别代表状态、动作、转移概率、奖励和折扣因子。”

二、值函数与贝尔曼方程

  1. “状态值函数V(s)衡量从状态s出发的长期回报,贝尔曼方程将其分解为即时奖励与后继状态值的加权和。”
  2. “最优值函数V*(s)满足贝尔曼最优方程:V*(s) = max_a [R(s,a) + γΣ P(s'|s,a)V*(s')]。”

三、经典算法

  1. “Q-learning的更新规则:Q(s,a) ← Q(s,a) + α[r + γ max_a' Q(s',a') - Q(s,a)],属于离策略(Off-policy)学习。”
  2. “策略梯度定理:直接优化策略参数θ,梯度∇J(θ) ∝ E[∇log π(a|s;θ) Q^π(s,a)]。”

四、深度强化学习

  1. “DQN(Deep Q-Network)的两大创新:经验回放(Experience Replay)打破样本相关性,目标网络(Target Network)稳定训练。”
  2. “Actor-Critic框架结合值函数(Critic)与策略(Actor),降低策略梯度的方差。”

五、策略优化

  1. “PPO(近端策略优化)通过 clipped重要性采样控制策略更新幅度,平衡效率与稳定性。”
  2. “TRPO(信赖域策略优化)用KL散度约束策略更新,保证单调改进,但计算复杂。”

六、探索与利用

  1. “ε-greedy策略:以概率ε随机探索,否则选择当前最优动作,简单但低效。”
  2. “基于不确定性的探索(如UCB)偏好访问不确定性高的状态-动作对。”

七、多智能体RL

  1. “纳什均衡是多智能体RL的收敛目标,但求解复杂度随智能体数量指数增长。”

八、实践技巧

  1. “奖励设计原则:稀疏奖励需结合课程学习(Curriculum Learning)人工塑形(Reward Shaping)。”
  2. “超参数敏感:学习率α和折扣因子γ需网格搜索,γ≈0.99适用于长期任务。”

九、前沿方向

  1. “元强化学习(Meta-RL)让智能体学会学习,在新任务中快速适应。”
  2. “模仿学习(Imitation Learning)从专家示范中初始化策略,减少随机探索成本。”

十、理论局限

  1. “样本效率低下:RL需大量环境交互,模拟器(如MuJoCo)是现实应用的桥梁。”
  2. “灾难性遗忘:连续任务中,新知识可能覆盖旧策略,需引入记忆回放正则化。”
  3. “RL的终极挑战:如何实现可解释性安全约束,避免‘奖励黑客’(Reward Hacking)。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注