变分推断

一般的假设我们的输入是x（n维）然后我们有一个隐变量z 是m维的我们假设 additional parameters α that are ﬁxed.

一般的 bayes那一套就是

也就是对一个隐含变量的后验就是它的先验的一些做法

有时候为了求得这个隐变量需要大量的计算就像上面的那个因为分母上面的积分所以我们的计算很辛苦

现在我们可以考虑将这个东西换一下换成一个可以计算的要不然intractable

其中好多都是对这个分母在mcmc上面就是估计一个分布然后让另外一个分布来逼近她其实也是一个求期望的过程

现在换一个变分模型就是假设隐变量是一个模型产生的

Then, ﬁnd the setting of the parameters that makes q close to the posterior of interest.

就是输出的模型是p 我们这个变分的模型是q

--------------------------------------------------------------------

我们再看看这个对可观测值求期望的过程

----（1）

可以看出来最后我们想让这个期望最大化也就是让这个p(x,z)最大和右边的最小右边的是熵也就是我们要找到一个q 使

这个q的不确定性最小也就是隐变量在这个model（q）下面比较确定而且在和x相关之后又不确定了

可以看出来有几点就是为了让我们的kl距离比较小然后logP(x）和那个变分模型q没有关系所以我们可以只管前一部分

所以让kl最小等同与让最下面那一行左边最大这就是跟上面那个式子（1）一样了

--------------------------------------

mean-field variational inference

假设我们可以把隐变量分为这样的

然后我们可以看到这是一个假设每一个隐变量都独立的假设

We will use coordinate ascent inference, interatively optimizing each variational

distribution holding the others ﬁxed.

假设我们的数据是下面这样一个chain rule产生的也就是

我们现在可以看到这个东西是有点类似马尔可夫链的性质

然后我们将上面那个elbo里面的其中一项变分的熵给找出来

意思就是分开了因为我们假设独立么

现在我们的ELBO变成了

然后我们把上面这个弄成期望的形式

就是加了一个q(Zk)然后求期望还是跟原来一样只不过这个是对每一个k了是一个k的函数

所以达到最优解的时候

由于我们的分母也就是上面式子右边和我们的zk没有关系所以可以表示为

最后我们可以看到一个例子

也就是可以用这个多元分布来模拟这个东西

哈哈变分就是这么简单

=====

假设有一个指数函数族人