Reinforcement Learning Resources

累计回报$G_t$

$$ \begin{equation} \begin{split} G_t &= R_t + \gamma R_{t+1} +\gamma^2 R_{t+2} + ... \\ &= \sum_{k=0}^{\infty} \gamma^k R_{t+k} \end{split} \end{equation} $$

状态值函数 (state value function) $v_{\pi}(s_t)$

在状态$s_t$下,状态值函数为累计回报的期望:

$$ \begin{equation} \begin{split} v_{\pi}(s_t) &= \mathbb{E}_{\pi}\big[\sum_{k=0}^{\infty}\gamma^k \cdot R_{t+k+1} | S_t=s\big] \\ &= \mathbb{E}_{\pi}\big[G_t | S_t=s\big], \end{split} \end{equation} $$

这里$G_t$和$v_{\pi}(s_t)$的区别我觉得是:$G_t$是在给定$\pi$之后,在每个状态都采取概率最大的那个action的累计回报; 而$v_{\pi}{s_t}$是取每个action所得到的回报的期望,在$s_t$采取的action是一个随机变量,与$\pi$有关。

$$ \begin{equation} q_{\pi}(s_t, a) = \mathbb{E}_{\pi}\big[\sum_{k=0}^{\infty}\gamma^k \cdot R_{t+k+1}|S_t=s, A_t=a \big]. \end{equation} $$ Where $\gamma$ is the decay factor.