Occam’s Gates

颜渊喟然叹曰：“仰之弥高，钻之弥坚。瞻之在前，忽焉在后。夫子循循然善诱人，博我以文，约我以礼，欲罢不能。既竭吾才，如有所立卓尔，虽欲从之，末由也已。”

Occam’s Gates

说实话这个文章不知道放在那个目录下面因为即是RNN的模型又是语言里面的应用

===================================================================

讲的是LSTM的东西但是加入了attention

出发点很简单就是我们在表达一个句子或者一个序列的时候往往只会注重某一部分一个句子中只有一点点是有效的

但是我们的RNN则是每个字词都是相同的权重但是这个不太好但是往往我们的LSTM或者其他的只是在我们的生成的时候给一个权重最后的所有的东西都是在Ht里面并不是在将每个Xt加入的时候就考虑到它的权重和在全局中的应用所以我们现在可以有一个显式的注重某个输入或者让某个输入不起作用的方法所以这个东西就叫做奥卡姆剃刀原理

我们可以对比一下它和以前的LSTM的不同

可以看出来最大的不同就是在输入的时候我们就有一个门来控制这个输入的大小或者说这个句子的重要性最后的这g occam就可以当作我们的attention weight

然后我们的门的计算也和标准的一样

是线性或者双线性的

然后我们为了让有些门比较小有些门比较大所以对其中的门加了一个L1约束

这个和普通的岭回归意思一样就是要表达一个东西我们不是用所有的特征而是只是用其中的一部分就可以了所以我们在attention的时候也是一样的原理

但是上面的这个式子有一个缺陷就是在训练的时候容易陷入到局部最优解也就是所有的gates非常近所以有一种新的训练策略，即逐步增大权值

以上就是这个模型可以看出来最后就是加了一个局部attention的作用

最后在 paraphrase detection情感分析和babi20上面做了实验

----

整体文章有点简单模型描述的不太详细

回复列表：

By王炳宁 on Feb. 19, 2016 | 类别 ML