您的位置:首页 > 汽车 > 新车 > 软件开发培训有哪些_生意网_百度知道网页入口_天津seo排名费用

软件开发培训有哪些_生意网_百度知道网页入口_天津seo排名费用

2025/6/3 10:43:49 来源:https://blog.csdn.net/sjtu_wyy/article/details/146983151  浏览:    关键词:软件开发培训有哪些_生意网_百度知道网页入口_天津seo排名费用
软件开发培训有哪些_生意网_百度知道网页入口_天津seo排名费用

REINFORCE 算法推导

REINFORCE算法是一种基于策略梯度的蒙特卡洛强化学习算法,通过直接优化策略参数以最大化期望回报。基本原理:REINFORCE属于策略梯度方法,其核心是通过梯度上升调整策略参数θ,使得高回报的动作被赋予更高的概率。具体来说,算法通过采样完整的轨迹(episode)计算累积回报,并用其估计梯度,进而更新策略。

1. 目标函数

策略梯度方法的目标是最大化期望累积回报
在这里插入图片描述

J ( θ ) = E τ ∼ π θ [ R ( τ ) ] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] J(θ)=Eτπθ[R(τ)]
其中:

  • τ = ( s 0 , a 0 , r 0 , . . . , s T ) \tau = (s_0, a_0, r_0, ..., s_T) τ=(s0,a0,r0,...,sT) 是轨迹(Trajectory)
  • R ( τ ) = ∑ t = 0 T γ t r t R(\tau) = \sum_{t=0}^T \gamma^t r_t R(τ)=t=0Tγtrt 是轨迹的折扣回报
  • γ \gamma γ 是折扣因子

2. 策略梯度定理

对目标函数求梯度:
∇ θ J ( θ ) = ∇ θ E τ ∼ π θ [ R ( τ ) ] \nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right] θJ(θ)=θEτπθ[R(τ)]

2.1 期望展开为轨迹积分

∇ θ J ( θ ) = ∫ ∇ θ p θ ( τ ) R ( τ ) d τ \nabla_\theta J(\theta) = \int \nabla_\theta p_\theta(\tau) R(\tau) d\tau θJ(θ)=θpθ(τ)R(τ)dτ

2.2 对数概率技巧

利用 ∇ θ p θ ( τ ) = p θ ( τ ) ∇ θ log ⁡ p θ ( τ ) \nabla_\theta p_\theta(\tau) = p_\theta(\tau) \nabla_\thet

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com