强化学习-价值学习

DQN( Deep Q Network)

Q(s,a;w)Q(s, a; \mathbf{w}) => approximate Q(s,a)Q^*(s,a)
输入s,根据参数w,完成对不同a的打分

Temporal Difference (TD) Learning

完成完整的一次,进行梯度下降更新

不完成完整一次 -> TD,模拟近似ground truth

TD error = 400-300 = 100 ,目的使其尽量接近0

TD应用DQN

Q(st,at;w)rt+γQ(st+1,at+1;w)Q(s_t, a_t; \mathbf{w}) \approx r_t + \gamma \cdot Q(s_{t+1}, a_{t+1}; \mathbf{w})

简易理解:

一次迭代循环


强化学习-价值学习
https://dreamerland.cn/2024/01/18/深度学习/强化学习2/
作者
Silva31
发布于
2024年1月18日
许可协议