DRL Lecture 8:Imitation Learning

讨论了在没有reward的情况下,如何利用expert来进行RL。

问题定义:在一些问题上是没有reward的,给定一些expert的demonstration example,如何利用这些example使得机器能够学习?

Behavior Cloning

本质就是监督学习,给定训练数据,要模型输入s能够获得尽量和expert相似的action。

由于expert example是较少的,机器可能遇到没遇到的情况。
同时由于机器的capacity是有限的,可能选择无关的行为去学习。
还有可能带来由于训练数据和测试数据的分布不同导致的问题。因为RL有序列性,如果使用Behavior Cloning,在某个state下采用了不同的action,则之后的state都会完全不同(失之毫厘谬以千里)

Inverse Reinforcement Learning (IRL)

通过expert example来学习reward function,在学习完reward function后让agent与环境交互获得agent example。接着调整reward function使得expert example一定大于agent的example。不断循环。这和GAN的思想有点像: