DRL Lecture 5:Q-learning (Continuous Action)

讨论了如何将Q-learning用于连续的action中。

前面提到 Q-learning就是:

若a是连续的,几种解决方案:

①sample一堆action$\left\{a_{1}, a_{2}, \cdots, a_{N}\right\}$,然后按照discrete的情况来处理。但精度不高,因为没法sample太多情况。

②使用gradient ascent来计算处理上式。该方法显然太耗时,因为每个sample都等于要训练一遍模型。

③设计专门的网络使得该优化可行。
首先输入state:

获得一个$\mu$,$\Sigma$和$V$。接着和action交互:

显然,第一项若$\Sigma$半正定,必定小于等于0,所以当$a=\mu(s)$时$Q$最大。实际上$\Sigma$是通过先获得一个矩阵$A$,然后$A\times A^{T}$保证其正定性。

因此:

④别用Q-learning处理连续的情况,因为处理还是比较麻烦的。