增强学习NLP应用

以后再DRL的东西用在NLP的都放在这个下面吧

------------------------------------------------

Deep Reinforcement Learning for Multi-Domain Dialogue Systems

这个是主要有很多的domain，然后我们每一个domain都有自己独子的一个网络，但是有一个共同的meta-domain

用的还是DQN那一套，也就是取最大的期望回馈

-------------------------------

这个文章的一个主要的亮点在我看来是下面这几个东西

也就是让减少词语空间，做简化

也就是把不常用的词换成常用的词