首页>>科技 >>内容

兼具动态规划DP和蒙特卡洛MC优点的TD,Learning算法

发布时间:2023-09-15 16:06:38编辑:温柔的背包来源:

很多朋友对兼具动态规划DP和蒙特卡洛MC优点的TD,Learning算法不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

兼具动态规划DP和蒙特卡洛MC优点的TD,Learning算法

TD学习时间序列差分学习结合了动态规划DP和蒙特卡罗MC方法,具有两种算法的优点,是强化学习的核心思想。虽然蒙特卡罗MC方法只在最终结果已知的情况下调整其估计,但TD学习时间序列差分学习调整预测进行匹配,进而在最终结果之前更准确地预测未来的预测。

TD学习算法概念:TD学习(temporal-differential learning)是指一种无模型的强化学习方法,从当前值函数估计的bootstrap过程中学习而来。这些方法从环境中获取样本,如蒙特卡罗方法,并基于当前估计执行更新,如动态规划方法。TD学习算法的本质:TD学习(时间差分学习)是强化学习的核心思想,结合了动态规划和蒙特卡罗方法。

时差不好理解。取而代之的是当时比较形象的差分学习,意思是通过当前的差分数据进行学习。

蒙特卡罗MC方法是模拟(或体验)一个序列或情节。在序列或图结束后,根据序列或图中每个状态的值来估计状态值。TD学习时序差分学习是模拟(或体验)一个序列或情节。每一步(或多步)都是基于新状态的值,然后估计执行前的状态值。可以认为蒙特卡罗MC方法是最大步长TD学习时序差分学习。

TD学习算法描述:如果可以计算出策略值(状态值v(s)或动作值q(s,a)),就可以优化策略。在蒙特卡罗方法中,要计算策略的价值,需要完成一个情节,通过情节的目标值Gt来计算状态的价值。公式:MC公式:v (ST) v (ST)+ t t=[gt?V (ST)]这里:tMC误差MC学习步骤TD学习公式:V (ST) V (ST)+ t。

t=[Rt+1+V(St+1)? V(St)] Here: tTD learning error TD learning step TD learning reward discount rate.

TD学习时差法的目标是RT+1+ V (ST+1)。如果用V (ST+1)的真值,TD学习时差法的估计是无偏的。但在实验中,V (ST+1)也是一个估计值,所以TD学习时差法属于有偏估计。

但与蒙特卡罗MC方法相比,TD学习时差法只使用一个随机状态和动作,所以TD学习时差法的随机性比蒙特卡罗MC方法中的Gt小,所以其方差也比蒙特卡罗MC方法小。

TD学习分类:1)战略状态值v的时间序列差分学习方法(单步和多步)2)战略行动值q的On-policy时间序列差分学习方法(单步和多步)3)战略行动值q的off-policy时间序列差分学习方法(单步)、双Q-learning(单步)4)带重要性抽样的off-policy时间序列差分学习方法):Sarsa(多步)

5) Non-compliant time series differential learning method of strategic action value q (without importance sampling): tree backup algorithm (multi-step) 6) Non-compliant time series differential learning method of strategic action value q: Q() (multi-step) TD learning algorithm flow: 1) Single-step TD learning time series differential learning method: arbitrarily initialize V(s)? SS+ Repeat (per episode): Initialize s? Repeat (every step of each episode): An action is given by .

? Take action a, observe r, S' V(S)V(S)+[R+V(S)? V(S)]? SS? Until s is the terminal. 2) Multi-step TD learning time sequence differential learning method: Input: the strategy dinitializev(s) to be arbitrarily assigned? S sparamendments: step size (0,1), positive integer nAllstore and access operation (for St and Rt) can take its index mod nRepeat (for each episode): Initialize and store S0 terminal? t

? Fort=0,1,2, Ift

?V(S)V(S)+[G?V(S)]?直到=T?1注:V(S0)由V(S0),V(S1),…,V(Sn)计算得出;V(S1)是由V(S1),V(S1),…,V (Sn+1)计算出来的。TD学习的理论基础:TD学习的理论基础如下:1)蒙特卡罗方法2)动态规划3)信号系统TD学习算法的优点:1)不需要环境模型;2)可以采用在线和完全增量实施;

3)不需等到最终的真实结果;

4)不局限于episode task;

5)可以用于连续任务;

6)可以保证收敛到v,收敛速度较快。

TD Learning算法缺点:

1) 对初始值比较敏感;

2) 并非总是用函数逼近。

TD Learning算法应用:

从应用角度看,TD Learning应用领域与应用前景都是非常广阔的,目前主要应用于动态系统、机器人控制及其他需要进行系统控制的领域。

结语:TD Learning是结合了动态规划DP和蒙特卡洛MC方法,并兼具两种算法的优点,是强化学习的中心。TD Learning不需要环境的动态模型,直接从经验经历中学习;也不需要等到最终的结果才更新模型,它可以基于其他估计值来更新估计值。输入数据可以刺激模型并且使模型做出反应。反馈不仅从监督学习的学习过程中得到,还从环境中的奖励或惩罚中得到。

TD Learning算法已经被广泛应用于动态系统、机器人控制及其他需要进行系统控制的领域。

以上知识分享希望能够帮助到大家!