广义优势函数
约 320 字大约 1 分钟
2025-09-01
什么是优势函数? 简单来说就是某个动作相对于平均水平的好坏程度. 它是一个动作价值函数和状态价值函数之间的差异. 当一个状态是好的, 那么就会比平均水平更好, 差值为正, 那么求梯度的时候, 就会更加鼓励这个动作. 反之亦然.
注
选用优势函数可以减少策略梯度的方差, 提高训练的稳定性和收敛速度. 可以证明, 使用优势函数不会引入偏差, 因为它的期望值为零. 并且是一个很好的baseline (指基本上是最好的), 具体的证明可以看赵老师的视频
Aπ(s,a)=Qπ(s,a)−Vπ(s)=ESt+1[rt+γVπ(St+1)∣St=s]−Vπ(s)=ESt+1[rt+γVπ(St+1)−Vπ(St)∣St=s]=ESt+1[δt]
我们对优势函数进行化简, 可以发现它等于TD误差的期望值.
广义优势函数
对优势函数加入一个衰减因子 λ, 可以得到广义优势函数 (Generalized Advantage Estimation, GAE):