当前位置：首页 > news >正文

上海市建设合同信息表网站/免费发帖的平台有哪些

news 2025/8/15 13:48:06

上海市建设合同信息表网站,免费发帖的平台有哪些,米特号类似网站,合肥市人民政府官网首页参考论文《The Variational Approximation for Bayesian Inference》令观测值为x\mathrm{x}x，代估参数值为 θ\thetaθ， EM算法所想要最大化的目标函数，最大似然函数可写为： ln⁡p(x;θ)F(q,θ)KL(q∥p)(1)\ln p(\mathbf{x} ; …

参考论文《The Variational Approximation for Bayesian Inference》

令观测值为 $x\mathrm{x}$ ，代估参数值为 $θ\theta$ ， EM算法所想要最大化的目标函数，最大似然函数可写为：

$ln⁡p(x;θ)=F(q,θ)+KL(q∥p)(1)\ln p(\mathbf{x} ; \boldsymbol{\theta})=F(q, \boldsymbol{\theta})+K L(q \| p) \tag{1}$

$p(x;θ)p(\mathrm{x} ; \boldsymbol{\theta})$ 强调 $θ\boldsymbol{\theta}$ 是一个参数，例如似然函数便是以之为变量的函数。另一方面， $p(x∣θ)p(\mathbf{x} \mid \boldsymbol{\theta})$ 则强调 $θ\boldsymbol{\theta}$ 是一个随机变量。
$\boldsymbol{\theta})=\int q(\mathbf{z}) \ln \left(\frac{p(\mathbf{x}, \mathbf{z} ; \boldsymbol{\theta})}{q(\mathbf{z})}\right) d \mathbf{z}$ ， $KL(q∥p)=−∫q(z)ln⁡(p(z∣x;θ)q(z))dz\mathrm{KL}(q \| p)=-\int q(\mathrm{z}) \ln \left(\frac{p(\mathrm{z} \mid \mathrm{x} ; \boldsymbol{\theta})}{q(\mathrm{z})}\right) d \mathrm{z}$ . 因此(1)式的成立就简单地遵循了 $p (A) = p (A, B) - p (B ∣ A)$ 这一条件概率规则。其中，KL也就是著名的KL散度 ( $q (z)$ 与 $p(z∣x;θ)p(\mathrm{z} \mid \mathrm{x} ; \boldsymbol{\theta})$ 之间)。
此处， $z\mathbf{z}$ 是所谓的隐变量，也可以理解为用于求解最大似然问题的人工辅助变量。 $q(z)q(\mathbf{z})$ 是任意的概率密度函数。对于EM算法， $z\mathbf{z}$ 和 $q(z)q(\mathbf{z})$ 往往有对应的物理意义。但这里我们并不care，只从纯数学的角度理解。

关于KL散度的介绍推介看这篇传送门，其中，通过Jensen’s不等式可以证明KL散度非负，即 $KL(q∥p)≥0\mathrm{KL}(q \| p) \geq 0$ ，因此：
$ln⁡p(x;θ)≥F(q,θ)(2)\ln p(\mathbf{x} ; \boldsymbol{\theta}) \geq F(q, \boldsymbol{\theta}) \tag{2}$
也就是说，(2)找到了最大似然函数的一个下界。因此，以EM算法为代表的许多贝叶斯推断都是在最大化该下界，也即 $\boldsymbol{\theta})$ 。

具体而言， EM算法是一个两步法对下界 $\boldsymbol{\theta})$ 最大化，从而最大化似然函数：

E-step:首先将 $θ\boldsymbol{\theta}$ 固定为 $θOLD\boldsymbol{\theta}^{\mathrm{OLD}}$ ，优化 $q$ 来最大化 $\boldsymbol{\theta})$ 。注意到，给定 $θ\boldsymbol{\theta}$ 时 $ln⁡p(x;θ)\ln p(\mathbf{x} ; \boldsymbol{\theta})$ 就确定了，因此根据(1)，最大化 $\boldsymbol{\theta})$ 等价于最小化 $\| p)$ ，而厚泽非负。当且仅当 $q(z)=p(z∣x;θOLD)q(\mathbf{z})=p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right)$ ，取到最小值 $0$ 。此时， $\boldsymbol{\theta}^{\mathrm{OLD}})$ = $ln⁡p(x;θOLD)\ln p(\mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}})$ 为最大值。
M-step: 将 $q$ 固定，优化 $θ\boldsymbol{\theta}$ 来最大化 $\boldsymbol{\theta})$ 。假定得到的最优解为 $θNEW\boldsymbol{\theta}^{\mathrm{NEW}}$ ，那么对于固定的 $q$ ，显然KL散度不再为 $0$ 。也就是说， $θNEW\boldsymbol{\theta}^{\mathrm{NEW}}$ 不仅最大化了 $\boldsymbol{\theta})$ ，也让我们的目标 $ln⁡p(x;θ)\ln p(\mathbf{x} ; \boldsymbol{\theta})$ 得到了更大的提升。注意到，由于在E-step中有 $q(z)=p(z∣x;θOLD)q(\mathbf{z})=p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right)$ ，因此在M-step中的优化为：
$F(q,θ)=∫p(z∣x;θOLD)ln⁡p(x,z;θ)dz−∫p(z∣x;θOLD)ln⁡p(z∣x;θOLD)dz\begin{aligned} F(q, \boldsymbol{\theta})=& \int p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right) \ln p(\mathbf{x}, \mathbf{z} ; \boldsymbol{\theta}) d \mathbf{z} \\ &-\int p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right) \ln p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right) d \mathbf{z} \end{aligned}$
而后一项是与 $θ\boldsymbol{\theta}$ 无关的常数项。因此记：
$Q(θ,θOLD)=∫p(z∣x;θOLD)ln⁡p(x,z;θ)dzQ\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\mathrm{OLD}}\right)=\int p\left(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta}^{\mathrm{OLD}}\right) \ln p(\mathbf{x}, \mathbf{z} ; \boldsymbol{\theta}) d \mathbf{z}$

EM算法就可以被总结为：
在这里插入图片描述

推荐大家可以看下两个实例，再结合数学公式深入理解EM算法。 https://zhuanlan.zhihu.com/p/36331115
我个人觉得一个最好的例子就是K-means算法。 E步骤相当于给定质心的情况下，对数据进行聚类。M步骤相当于分类结束的情况下，根据每类的数据对质心进行更新。隐函数 $z$ 就代表类别，变量 $θ\boldsymbol{\theta}$ 包括了每类的质心参数。

EM算法的核心在于，原始的最大似然算法需求 $p(x;θ)p(\mathrm{x} ; \boldsymbol{\theta})$ 的信息，而EM算法中需求的是 $p(z∣x;θ)p(\mathbf{z} \mid \mathbf{x} ; \boldsymbol{\theta})$ 的信息，后者在许多时候可能比前者容易获得。但在一些场景中却并不如此，也导致无法使用EM算法。此时， 变分贝叶斯方法是一种更好的算法。