DRL Lecture 7:Sparse Reward

讨论了当RL遇到sparse reward时的几个解决方案。

Reward Shaping

hand-crafted

也即虚构出reward引导agent走向自己期望的结果。

如上图,仔细定义了游戏中每个操作的reward。

Curiosity

往agent里添加好奇心。

输入是$a_t$和$s_t$尝试预测出$s_{t+1}$,如果预测的和真实的差距较大时,则该action的reward大,这样能够鼓励agent探索更多的操作。

但有时候难以预测的state并不代表其重要。应当过滤掉这样的state,比如游戏中树叶飘动,但这个state完全不重要。因此对上述模型进行改进:

添加feature extractor,同时添加另一个网络,来通过$s_t$和$s_{t+1}$预测action,这样就能够过滤掉state中没意义的部分。

Curriculum Learning

从简单的开始学起,比如玩游戏的例子:

这个需要人工较为精细的调整。

Reverse Curriculum Generation

首先给定一个gold state,也即目标,然后寻找与gold state最接近的state获得相应的reward。

然后去掉reward太大或太小的。在留下来的state中再获取与他们接近的state,继续以上流程。