强化学习-价值学习

DQN( Deep Q Network)

$Q(s, a; \mathbf{w})$ => approximate $Q^*(s,a)$
输入s,根据参数w，完成对不同a的打分

完成完整的一次，进行梯度下降更新

不完成完整一次 -> TD，模拟近似ground truth

TD error = 400-300 = 100 ，目的使其尽量接近0

$Q(s_t, a_t; \mathbf{w}) \approx r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}; \mathbf{w})$

简易理解：

一次迭代循环

#深度学习 #RL #强化学习

强化学习-价值学习

https://dreamerland.cn/2024/01/18/深度学习/强化学习2/

作者

Silva31

发布于

2024年1月18日

许可协议