强化学习-价值学习
DQN( Deep Q Network)
=> approximate
输入s,根据参数w,完成对不同a的打分
Temporal Difference (TD) Learning
完成完整的一次,进行梯度下降更新
不完成完整一次 -> TD,模拟近似ground truth
TD error = 400-300 = 100 ,目的使其尽量接近0
TD应用DQN
简易理解:
一次迭代循环
强化学习-价值学习
https://dreamerland.cn/2024/01/18/深度学习/强化学习2/