Deep Reinforcement Learning with a Combinatorial Action Space for Predicting Popular Reddit Threads

这个就是硬生生的在reinforcement学习上面做

我来告诉你他怎么弄的

任务就是推荐reddit的热点话题，我们知道reddit上面针对某一个post会有一个评论我们根据这个post的评论来判断某一个评论是不是会成为

一个热点的话题，如下图

其中的红色框框就是根据长时间的经验积累之后得到的一个关于这个评论的打分，可以视为一个long-term reward

有以下几个定义：

就是状态是当前的评论，然后action是我们从当前n个评论里面找k个评论出来，当作当前状态，然后我们知道reward就是上面的那个红框框的分

然后取了这个action之后的状态就是新的N个评论呵呵呵呵

DQN里面把状态和action拆开了，如下图

最后实验应该还不错，但是也是只是比较了了几个方法

By王炳宁 on Nov. 25, 2016 | 类别 NLP