ML

上一页下一页

DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING

最后在剩下的这些还保留的weight上面继续训练一般这一步可以将参数减小10倍左右然后第二步是量子化也就是把所有的weight分层,也就是上图中的蓝色或者红色橙色绿色中的一个当然这些shared weight的初始值有很多种更新方法有三个,就是根据线性从小到大平均分成k等分更新的时候就和上面的上面的那个图一样就是所有的这个bin里面的权值共同更新呵呵都是一个工程的方法,注意上面我们把w

By 王炳宁 on May 29, 2016, 8:25 p.m.

拉格朗日乘子法和KKT条件

其中最后一个是为了满足现在的方程和原方程的最优解一样所以现在我们分析一下啊如果A1/4 那么直接是约束没什么用但是我们需要看看所有的方程是否都满足所以最后-看看当A1/4的时候哈这样13 会让u=0 但是这样不行因为有一个约束被否定了所以x4=A所以我们知道很好吧===================================最后附上来两个文件,所以下一步就有公式8就是上面那个

By 王炳宁 on May 17, 2016, 10:17 a.m.

Lipschitz Continuity of Mahalanobis Distances and Bilinear Forms

首先我们有一个马氏距离函数,the slope of the function is bounded by a constant that is independent of the choice of points.也就是这个函数的导数或者梯度是有范围的所以像x^2这种函数就不是Lipschitz continuous因为这个东西的导数在整个样本空间里面当x趋于无穷的时候slope是无穷的所以现

By 王炳宁 on May 16, 2016, 9:11 p.m.

Pointer Networks

竟然也投到了NPIS中去了~~~核心思想就是以前的s-to-s是在每次解码的时候输出字典中的一项,然后输出一个值u 最后这个u再softmax一下就是输入中每个状态的概率,输出是针对于输入的了公式如下,但是解码的时候,也就是在解码的时候还是会有一个di,我们每次解码器输出的softmax维度是变的了,然后就可以输出了,然后它和编码器中的每个隐含层加权求和, ,

By 王炳宁 on May 16, 2016, 9:13 a.m.

Noisy Activation Functions

我们的函数的导数现在是这样的以往的sigmoid和tanh函数会在0-1之间有很大的导数,而且作者想了一个来使噪声饱和区很大,也就是直到那个地方才饱和出来作者在这个工作里面定义了两个hard function作者为了hard,逐步拉回来（从上面到下面）现在看作者怎么把这个噪声的激活函数加进去的the amount of noise added to the nonlinearity is proportional to the magnitude of saturation of the nonlinearity现在的激活函数有下面这样的形式,在两端会饱和比如sigmoid 或者tanh 在我们的输入很大的时候会饱和这个很让人苦恼,其中的u（x）是一阶泰勒展开可能会很大所以作者这样的定义之后,这个工作主要是在选择我们的激活函数上面=====================================================首先以前的激活函数都是这样的,going from large noise levels (σ → ∞) to no noise at all (σ → 0).并且这个函数有以下特征也就是当x在很两端的时候导数很大, ,

By 王炳宁 on May 12, 2016, 4:04 p.m.

Fast Supervised Hashing with Decision Trees for High-Dimensional Data

也就是 -1 1的值作者用了这个方法所以现在我们的优化目标就变成了下面的这个目标函数,后面我们会看到怎么得到这个b===========首先我们的东西是最后要优化的目标,把这个cnn的输出转到汉明空间是这样的然后我们可以看到其实就是把cnn的输出给映射到一个新的空间里面现在的优化目标就变成end-to-end的了,在这里作者其实映射到的空间不是 0 1而是 -1 1现在我们可以在汉明空间计算两个样本的相似度,现在我们还没有具体的说到底怎么去得到这个hk(x) 也就是如何得到一个样本点的code但是我们的样本点的code 必须是满足上面的这个形式也就是一定要使上面的这个最小,而且zk^2=1现在其实就是优化上面公式的第三行Here z?denotes a binary code in previous bits.注意在作者的方法中,可以看到其实参数还是非常多的然后对于训练目标,首先我们的训练集可以分为好几个block然后优化目标是这个block内部的东西作者构造block的方法就是随机采样,,

By 王炳宁 on May 10, 2016, 9:01 p.m.

Deep Networks with Stochastic Depth

就是根据名字也能看出来就是deep learning里面隐含层的数目不一样====================================首先我们看一下Residual Networks (ResNets) 是什么样子模型是这样就是每一层除了由原本的输入也就是Hl-1现在再加上一个原来的映射也就是id（indentity mapping）它的示意图是这样的这样做的一个好处就是我们知

By 王炳宁 on May 6, 2016, 10:35 p.m.

Quantifying the vanishing gradient and long distance dependency problem in recursive neural networks and recursive LSTMs

最后的结果可以看到我们的LSTM—RNN还是能够很好的处理不同深度的问题但是那个RNN就不行了-实验三是看看最后那个误差是不是会exploding 或者vanishing它定义一个检测这个目标如下if the ratio 1,可以看到蓝色的是LSTM-RNN的准确度的boxplots 红色的是RNN的我们可以从图中发现当句子距离一大 RNN就不行了但是LSTM还是可以撑一段时间的-刚才的第

By 王炳宁 on April 18, 2016, 10:24 p.m.

FITNETS: HINTS FOR THIN DEEP NETS

we choose the guided layer to be the middle layer of the student network.也就是我们只需要在两个网络的中间加入就行了,教师网络已经有了一个函数（其实就是前向网络w1w2w3.）然后我们的目标就是让学生去mimic这个所以作者提出的一个就是其中uh代表教师网络隐含层的输出,先训练比较简单的样本,然后再总体上面KD注意到teach

By 王炳宁 on Feb. 26, 2016, 12:39 a.m.

ALL YOU NEED IS A GOOD INIT

首先是我们需要对所有的网络的权值矩阵进行一个标准化,这个过程可以依靠SVD或者QR分解来做,这个过程可以依靠刚才那片文章里面的方法来实现,然后对矩阵进行分解,往往要初始化其中的参数这个文章就对这种初始化的方法给予了比较好的方案================首先这个文章是在《Exact solutions to the nonlinear dynamics of learning indeep

By 王炳宁 on Feb. 25, 2016, 1:15 p.m.

Deeply-Supervised Nets

m表示层数最后的这个东西我们的参数表达就是现在,所以这个γ应该也是跟我们的层数有关）然后前面的α m表示的是我们对于这个隐含层判别能力的权重,其中Q表示输入经过一次变换之后的表达,Z表示的是经过pooling之后的表达,a discriminative classi?er trained on highly discriminative features will display better p

By 王炳宁 on Feb. 25, 2016, 9:44 a.m.

Batch-normalized Maxout Network in Network

其实标准的CNN就是一个卷积核弄出来好多然后pooling 现在是在多个卷积核上面进行MLP使之逼近任意的函数,我们可以看到现在这个NIN用的是标准的RELU当作每一层的激活函数,所以我们的现在的表达就是其中这样我们的这个层就可以逼近任意一个凸函数了,的maxout 其中k=5原文中还证明了为什么这个东西可以逼近任意的凸函数======================================然后,而且最后求max是凸函数,etc.).这个就是标准的东西用的是RELU当作激活函数,所以我们有一个方法就是用batch normalization作者提出的MIN Architecture 就是这样的一个网络也就是每两层之间是NIN,j上面max的However, ,

By 王炳宁 on Feb. 24, 2016, 7:38 p.m.

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

就是在inference的时候我们的输入就不是以这个batch的均值还有方法来标准化了,所以我们必须对每一层的输入也进行标准化We de?ne Internal Covariate Shift as the change in the distribution of network activations due to the change in network parameters during

By 王炳宁 on Feb. 24, 2016, 9:13 a.m.

CONVOLUTIONAL NEURAL NETWORKS WITH LOWRANK REGULARIZATION

然后我们对剩下的这个矩阵进行svd变换得到了我们的这个目标的参数,所以我们经常需要对矩阵进行低维度分解来得到正确的表达传统上我们的卷积矩阵是一个四维的张量,所以K个就可能是K有了这个我们就可以对最上面那个式子重新进行处理了我们可以看一下这样做的好处============================仅仅通过原始的卷积操作也就是最上面的那个式子复杂度是O(ddNCXY )但是现在我们的复杂

By 王炳宁 on Feb. 23, 2016, 3:36 p.m.

BLACK BOX VARIATIONAL INFERENCE FOR STATE SPACE MODELS

we borrow from the toolkit of the standard Kalman ?lter. In an LDS model with Gaussian observations,the posterior is a multivariate Gaussian with a block tri-diagonal inverse covariance. This block-tr

By 王炳宁 on Feb. 20, 2016, 9:02 p.m.

Occam’s Gates

说实话这个文章不知道放在那个目录下面因为即是RNN的模型又是语言里面的应用===================================================================讲的是LSTM的东西但是加入了attention出发点很简单就是我们在表达一个句子或者一个序列的时候往往只会注重某一部分一个句子中只有一点点是有效的但是我们的RNN则是每个字词都是相同的权重但是这个不太好但是往往我们的LSTM或者其他的只是在我们的生成的时候给一个权重最后的所有的东西都是在Ht里面并不是在将每个Xt加入的时候就考虑到它的权重和在全局中的应用所以我们现在可以有一个显式的注重某个输入或者让某个输入不起作用的方法所以这个东西就叫做奥卡姆剃刀原理我们可以对比一下它和以前的LSTM的不同可以看出来最大的不同就是在输入的时候我们就有一个门来控制这个输入的大小或者说这个句子的重要性最后的这g occam就可以当作我们的attention weight然后我们的门的计算也和标准的一样是线性或者双线性的然后我们为了让有些门比较小有些门比较大所以对其中的门加了一个L1约束这个和普通的岭回归意思一样就是要表达一个东西我们不是用所有的特征而是只是用其中的一部分就可以了所以我们在attention的时候也是一样的原理但是上面的这个式子有一个缺陷就是在训练的时候容易陷入到局部最优解也就是所有的gates非常近所以有一种新的训练策略,即逐步增大权值以上就是这个模型可以看出来最后就是加了一个局部attention的作用最后在 paraphrase detection情感分析和babi20上面做了实验-整体文章有点简单模型描述的不太详细, ,

By 王炳宁 on Feb. 19, 2016, 9:45 p.m.

Transfer Learning

因为我这个任务分了两个部分,A Survey on Transfer Learning.pdf主要就是将一个任务的知识用在第二个任务上面,但是我现在的这个MC里面要是用外面的知识也只是部分的用而不是整个的用,所以还是要分开的处理, ,

By 王炳宁 on Jan. 17, 2016, 4:26 p.m.

CRF

而且主要是输出（隐变量）怎样以概率输出输入（x）.但是判别式模型主要是将他们联合在一起进行构建,但是一般还是叫后者的比较多参数学习现在我们有了模型,我们得有下面的这个概率注意上面公式在推导的时候3.10可以不要其实然后我们可以看到其实3.12比3.11少的就是那个p(x)现在看看怎么进行推理有了这个之后,整体的概率有然后我们现在把整体x的概率表示出来所以我们可以看出来这个东西其实就是不断的往前传递注意每一步都是求和,但是有向图就可以了在有向图里面是这样表示整体的概率的其中v可能就是指其中输出的某一维 pai（v）表示和这个输出的点的相关的可能全部是输入所以他们的差别就是在这个里面不是统一的构造了,而且最后的概率是由输出判别出输出的概率1）对于判别式模型来说,就如下而且还有好了现在判别式的写成一个概率只和的形式就是下面这样-(2)比较1和2 可以看出来参数有所变化呵呵呵呵呵呵呵呵呵呵呵呵呵呵呵呵呵呵作者说,后来的两个在图里面是因为以前序列的两个只是考虑输出（隐变量）之间的连续的这种关系,,

By 王炳宁 on Dec. 8, 2015, 10:55 a.m.

上一页下一页