电商网站设计岗位主要是_长沙网站排名分析_网站规划与设计_百度收录

2025/12/20 12:38:38 来源：https://blog.csdn.net/qq_66608435/article/details/147283571 浏览: 次关键词：电商网站设计岗位主要是_长沙网站排名分析_网站规划与设计_百度收录

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第三章贝尔曼最优公式

直观上地说，选择action value比较大的action，将他设置为1，其他设置为0。不断如此迭代，就可以找到最优的策略。
严格证明则需要贝尔曼最优公式。

如果对于所有的s，都有 $v_{\pi_1}(s) \ge v_{\pi_2}(s) for\ all \ s \in S$ ,那么说 $\pi_1$ 是比 $\pi_2$ 要好的。

问题一：这样最优的策略是否存在？
问题二：这个最优的策略是唯一的吗？
问题三：策略是stochastic还是deterministic？
问题四：如何找到这么一个策略？

贝尔曼最优公式

贝尔曼最优公式堂堂登场！

$max(\underset{a}{\sum} (\pi(a|s) q(s,a))) , s \in S$

可以发现，假设当 $a = a^{'}$ 时， $q (s, a)$ 最大，那么令$\pi(a|s) = \begin{equation} \left{ \begin{array}{lr} 1 &a = a’ \ 0 & a\not= a’ \end{array} \right. \end{equation} $ ,就会得到最大的 $v (s)$ 。

即 $max(\underset{a}{\sum} (\pi(a|s) q(s,a)))=\underset{a\in A(s)}{max}(q(s,a))$

将公式变为矩阵-向量形式

$\underset{\pi}{max}(r_\pi + \gamma P_\pi v)$

我们设一个映射 $\underset{\pi}{max}(r_\pi + \gamma P_\pi v)$ ,那么原式就可以化为 $v = f (v)$

一些概念

FixedPoint 不动点：对于映射 $\to X$ ，存在 $\in X, f(x) = x$ ，那么x是不动点。

Contraction mapping : 在映射后两点的距离更小。 $||f(x_1)-f(x_2)|| = \gamma||x_1 - x_2|| ,\gamma < 1$ 。(例如 $f (x) = 0.5 x$ 就是一个contraction mapping)

contraction Theorem

如果 $f$ 是一个contraction mapping。那么一定有

存在一个 $x *$ , 满足 $f(x^*) = x^*$ ，即 $x^*$ 是一个FixedPoint
这样的 $x^*$ 一定有且只有一个
可以通过迭代算法求出这个 $x^*$ : $x_{k+1} = f(x_k)$ ，当 $\to \infty$ 时，有 $x_k \to x^*$

例如 $f (x) = 0.5 x$ ,那么 $f(0) = 0, x^* = 0$ ,给出任意x，在不断进行 $x = 0.5 x$ 迭代后，会收敛于 $0$

求解贝尔曼最优公式

可以证明在贝尔曼最优公式中 $\underset{\pi}{max}(r_\pi + \gamma P_\pi v)$ 是一个contraction mapping，那么 $v = f (v)$ 。于是就可以通过迭代算法来求解出来。

假设 $v^*$ 是贝尔曼最优公式的解，即是他的不动点。即 $v^* = \underset{\pi}{max}(r_\pi + \gamma P_\pi v^*)$

所以就可以利用contraction Theorem中的迭代算法来求得 $v^*$

所以贝尔曼最优公式就是特殊的贝尔曼公式。

电商网站设计岗位主要是_长沙网站排名分析_网站规划与设计_百度收录

第三章贝尔曼最优公式

贝尔曼最优公式

一些概念

contraction Theorem

求解贝尔曼最优公式

最新新闻

热搜词

电商网站设计岗位主要是_长沙网站排名分析_网站规划与设计_百度收录

第三章 贝尔曼最优公式

贝尔曼最优公式

一些概念

contraction Theorem

求解贝尔曼最优公式

最新新闻

热搜词

第三章贝尔曼最优公式