这个就是硬生生的在reinforcement学习上面做
我来告诉你他怎么弄的
任务就是推荐reddit的热点话题,我们知道reddit上面针对某一个post会有一个评论 我们根据这个post的评论来判断某一个评论是不是会成为
一个热点的话题,如下图
其中的红色框框就是根据长时间的经验积累之后得到的一个关于这个评论的打分,可以视为一个long-term reward
有以下几个定义:
就是状态是当前的评论,然后action是我们从当前n个评论里面找k个评论出来,当作当前状态,然后我们知道reward就是上面的那个红框框的分
然后取了这个action之后的状态就是新的N个评论 呵呵呵呵
DQN里面把状态和action拆开了,如下图
最后实验应该还不错,但是也是只是比较了了几个方法
回复列表: