变分推断 一般的假设我们的输入是x(n维) 然后我们有一个隐变量z 是m维的 我们假设additional parameters α that are ?xed.一般的 bayes那一套就是也就是对一个隐含变量的后验就是它的先验的一些做法 有时候 为了求得这个隐变量 需要大量的计算 就像上面的那个 因为分母上面的积分 所以我们的计算很辛苦现在我们可以考虑 将这个东西换一下 换成一个可以计算的 要不然intr By 王炳宁 on Dec. 6, 2015, 11 p.m.
好文章之-UNIFYING DISTILLATION AND PRIVILEGED INFORMATION in addition to training data.比如词向量 先在语言模型上面获取知识 然后在我们的关系推到上面重新获取知识2 DISTILLATION这个第一步也是先和普通的一样然后这里其实最后的西格玛是一个sigmoid函数 就是映射到输出上面的 主要还是f输出不解释其中这个就是知识蒸馏的表示方法 可以看的有一些区别首先目标函数是带s下标的 表示不同的函数集合 和上面的公式中t不一样 By 王炳宁 on Dec. 3, 2015, 11:58 a.m.