好文章之-UNIFYING DISTILLATION AND PRIVILEGED INFORMATION

非常好的一个文章，讲的是知识蒸馏和特殊信息的联合我们一点点的道来：

Vapnik & Izmailov (2015) 说道：

我们的训练目的主要是：

就是有n哥样本我们有x和y 还有一个特殊的经过处理的或者有特殊意义的信息我们称之为x星，然后我们的拟合过程可以依靠这个x星，我们的有监督和无监督

都只是说有没有监督的信号，就是你做卷子有没有答案，但是这里的x星就起到了老师的作用

-------------------------

首先我们看Vladimir Vapnik大神的一些经典理论

-- VC theory，which characterizes the speed at which machines learn using two ingredients: the capacity or ﬂexibility of the machine, and the amount of data that we use to train it. Consider a binary classiﬁer f belonging to a

function class F with ﬁnite VC-Dimension |F| VC . Then, with probability 1 − δ, the expected error R(f) is upper bounded by

对一般的不可分问题就是非常困难的一般都是a=0.5 所以最后我们右边的那个上届的公式为

On the other hand, for easy (separable) problems, i.e., those on which the machine f makes no

training errors, the exponent is α = 1, which translates into machines learning at a fast rate of

所以我们可以看到有两方面

1）越是训练集越大也就是右边的分母越大则我们的训练损失和实际损失就越小

2）越是复杂的模型，它的VC纬越高，那么它训练出来的模型就和真实模型差别越大，因为上边的O是我们定义的上届可以看出 linear model的

训练误差和实际误差应该很接近

------------------------

好了然后我们现在有的很多新的工作都是让machines-teaching-machines: the paradigm where machines learn from other machines, in addition to training data.

比如词向量先在语言模型上面获取知识然后在我们的关系推到上面重新获取知识

2 DISTILLATION

这个第一步也是先和普通的一样

然后

这里其实最后的西格玛是一个sigmoid函数就是映射到输出上面的主要还是f

输出不解释

其中

这个就是知识蒸馏的表示方法可以看的有一些区别

首先目标函数是带s下标的表示不同的函数集合和上面的公式中t不一样是不同的函数集合

其次这里加了一个老师信号有个两步走的意思首先我们学习到比较好的teacher信息就是上面的Ft 然后把它除以T之后表示一个

soft predictions from f t about the training data 就相当于老师了然后有这么一个知识蒸馏的过程（就是把目标函数降低一个档次用更简单的模型去你和）

After distillation, we can use the simpler f s ∈ F s for faster prediction at test time.

因为在训练的时候这个fs是有右边的导师信号参与的

主要观点就是我们应该人为的加入一些 intelligent teacher, 就是上面最开始的X* 但是这些x星非常难获取所以我们要另辟蹊径

------

有两个方面的观点： similarity control and knowledge transfer.

第1一个similarity control--

VV在09年发的文章中说道一个SVM+算法如下

其中

是我们在目标点的估计函数就是decision boundary

是那个地方相应的老师信号我们可以将左边的看作可以分隔开的目标函数右边是加的教师信号

我们可以把右边的f星看成一个在SVM里面的松弛变量，就是错误的点的惩罚项目，这样右边和左边组合到一起就是我们标准的SVM了，可以看看

ESL420页相关的公式就明白了

所以这里有了一个这样的trick 我们把那个错误分的松弛变量当做老师，也就是我们的老师可以告诉我们那个错误分的松弛变量的大小，学生

可能只知道正确和完全错误的但是老师就可以给你指出来有些非边界点（错误点的）信息所以这样你就可以好好学了

最后的总结就是

因为我们分界点的支持函数可能很复杂但是对于那些松驰点我们的教师信号可能很简单

knowledge transfer--比较新的

就是先把我们的教师知识x星映射到一个蓝本u上面然后用这两个东西去拟合我们的目标函数注意这里没有原始输入x的参与

得到的一个教师公式ft 然后我们在让学生学这个老师就是让他的的目标函数就是上面我们学出来的蓝本

注意这里是学生对每一个蓝本都学一个方程g 最后我们的目标函数就是在这个老师知指导下（已经有g了）学一个学生到目标y的映射

参数为a

可以看出来这也是一个三步走的策略

总结学生就是他拿着x 但是不直接接触答案y 老师就是有一个x* 也就是它的背景知识这个老师得先学习就是从x*到y 她有经验了

所以这部分会很快（Ft简单）然后她在把自己的这套经验交给学生然后学生越到了老师的经验x->x* 然后就可以用这套经验进行答题了

（当然也得做卷子（x->y）才能提升）

=====================================================

最后这篇文章的核心在这

就是先用教师的只是学习她到我们目标函数的映射

然后将这个知识soft一下用T来soft 因为这个知识不一定直接能被学生用上

最后依靠上面Hinton那个知识蒸馏的公式将学生学老师学生学卷子一起学习用拉姆达来调节这个学习过程

可以看出来是一个泛化的知识蒸馏过程我感觉和VV的更像

可以看出来在hinton的里面教师信号是从x-y pair里面学的因为这个过程很复杂因为x-y的过程肯定是很不可分的

所以最后ft的复杂度要大于fs的复杂度因为最后的fs同时可以学习老师这部分知识被蒸馏了所以复杂度降低

为了定性分析我们要把这个东西当作一个完全的过程就是HInton的知识蒸馏过程中的拉姆达是1 就是完全学习老师

================证明开始，请捂好耳朵=====================

首先学生自己学习卷子的时候它的学习错误率（VC角度）为

其中O表示估计的误差

然后西格玛是一个学生方程对真正整体方程的逼近误差

这个过程肯定很慢因为错误率会很高（直接x-y的）所以在VC纬度里面a=0.5

其次：老师的信号会很强大就是老师学的会很快

就是老师的信号和目标函数很近了所以这部分的VC纬度会很小我们也把a设置成1 因为数据是可分的（X*->y）

注意这里的Ft不一定小因为完全可分的两个平面（VC里的a大）你也可以很zuo的用一个很复杂的函数拟合~~~ 但好似这里是上届啦===

最后学生到老师的学习速率也是个事儿我们可以表示为

这里因为不知道老师的知识和学生的知识差多少所以用了一个a来表示因为这里不是确定可分和不确定不可分的

所以最后我们的学生在老师的鼓励下学习目标值的风险或者错误概率就可以这样表示

是他学习老师和老师学习目标函数的和右边的不等式成立因为a《=1

所以现在在教师参与进来之后我们为了证明我们的过程（学生学习老师然后老师再学习目标函数）有助于减小误差就是等价于证明

注意这个公式不一定成立如果这个公式成立则可以表明：

i) the capacity of the teacher being small, ii) the approximation error of the teacher being smaller than the approximation error of the student, and iii) the coefﬁcient α being greater than0.5 就是左边的a很大这样是增函数所以左边的O小当数据量很小的时候这个差别会很大因为n很小所以O在整个公式中会起作用了

为什么我们引入的教师信号会有用？

有一个观点是：The assumption of independence of cause and mechanisms states that “the probability distribution of a cause is often independent from the process mapping this cause into its effects”

Under this assumption, for instance, causal learning problems —i.e., those where the features cause the labels— do not beneﬁt from semi-supervised learning, since by the independence assumption, the marginal distribution of the features contains no information about the function mapping features to labels. Conversely, anticausal learning problems —those where the labels cause the features— may beneﬁt from semi-supervised learning.

就是这个从x-y的过程应该和其他的东西独立那么我们的方法就没用了因为不管你怎么教都不会影响x-y的过程

=======================